第十九章 我是预言家 (第2/3页)
病一样顺着调用链往上爬,拖垮了依赖它的内容分发、搜索、首页加载,最后整条链路全死了。
十一点十五分鼎盛发了紧急公告。十一点四十分,APP陆续恢复上线,他们手动把推荐系统整个切掉了。
微博上有人贴了恢复后的截图。首页干干净净,没有“猜你喜欢”,没有个性化推荐,没有千人千面。就一个光秃秃的货架。
“这是2015年的APP吧?”
“鼎盛的推荐系统呢?去哪了?”
“切了。不切整个APP都用不了,你选哪个?”
韩路一打开视界。
【事件性质:系统级故障(无熔断→全链路雪崩)】
【根因:画像格式不适配→解析异常堆积→内存泄漏触发OOM→数据管道断裂→ 23%用户画像错乱→推荐模块崩溃未熔断→级联击穿全链路】
【影响范围:宕机期间全量用户(峰值约1200万在线),当前降级运行中】
【当前状态:手动切断推荐模块,APP降级运行】
【预测恢复周期:版本回退至原架构,约14天】
跟他的判断一模一样。
三月中旬他扫那个外包需求时看到的D-评级,一百四十个Bug,就指向这个结局。当时看到的是七十二小时。
从周一上午全量上线到周二晚上全线崩溃,还不到四十八小时。
比原本预估的还快了一天。
……
天亮之后的事,像多米诺骨牌。
有人翻出了韩路一一个月前那篇《推荐系统架构改造的七个经典陷阱》,发了一条帖子——
“兄弟们!NullPointer是预言家!一个月前精准描述了鼎盛今天的崩溃路径,七个陷阱全踩了!”
“什么预言家,是重生者!”
“不是全踩。我数了数,至少五个。”
“你数错了。第二个和第六个也中了,只是症状还没完全暴露。”
“所以是七个全踩?”
“七杀。”
帖子被版主置顶。博客阅读量开始飙。中午两万九。下午四万二。晚上破六万。技术媒体引用,大厂群截图传播,连几个头部科技公众号都转了。
404寝室群里也在讨论。
马小飞丢了条链接进来:“你们看了吗这个NullPointer?一个月前写的文章,七个陷阱鼎盛全踩了。这人也太牛了吧。”
张浩然:“技术圈都在转。”
马小飞:“你们说这人会不会就是鼎盛内部的?不然怎么写得这么准?”
没人接话。
过了
(本章未完,请点击下一页继续阅读)
『加入书签,方便阅读』