刚加入阿里的时候,总听人调侃,“没有经历过故障的人生是不完整的”。最近几年,我感觉把别人一辈子都遇不到的故障都经历了一次,从刚开始的谨小慎微,到现如今还算是胆大心细。

我在 15 年的时候就接手做淘宝 PC 端首页,当时流量最大的时候差不多有 1.5 亿;整个淘宝首页就我一个开发,对接大量三方接口、一堆业务运营,而且连一个测试人员都没有配,全靠自测;最可怕的是,架构组总是拿淘宝首页开刀,做一些尝新的东西,因为淘宝首页做了,那么其他业务开发就没理由不去做。在这个岗位上战战兢兢地干了一年半。

从那个时候开始,我就学会一件事情,叫做小心翼翼。搞得我后续 N 年的工作中都保持着“穷尽一切思考也要找到业务和技术边界 case 以避免故障”的习惯。这两年切换到后端和 SRE 视角以后,这种习惯更甚。

如何避免故障,其实很简单,保持思考周全、小心翼翼;要重视问题,并且能够及时消灭问题。一个小小的隐患,一旦流量被放大,那将会是一场不可收拾的灾难。

当然更重要的是从每一次故障中汲取经验,做到同样的问题不再犯,并且举一反三去解决更多的问题。