网易云音乐事故复盘---如何刷存在感
由于该云存储运行稳定,运维简单,该项目组存在感越来越低,2024年初该项目被网易放弃,成员被离职或者转岗;同时在某社交网站2024年1月15日,有网易curve的项目组员工发文,该项目被枪毙,马上被离职,时间上和github的停止更新时间相互佐证,三个独立的消息源相互佐证,应该可以认为是被证实的。从前面的官方博文“网易国产开源分布式存储系统---Curve”中可以得知该云存储项目已经在网易内部大量
事件回顾
2024年8月19日
14:40 左右网易云音乐故障,无法访问;
15:00 左右门户网站www.163.com无法访问
15:08 网易云音乐官方发布公告,因基础设施故障
15:10 左右门户网站被转至M端m.163.com
17:10 网易门户和网易云音乐陆续恢复
17:30 网易云音乐官博发布:没删库,没跑路 故障已经陆续修复
整个故障持续超过2.5小时,妥妥的P0级别的重大故障!
各路小道消息
这期间各种小道消息漫天飞
什么DBA被裁删库跑路的(官方辟谣,没删库)
网易着火(实际是多年前的旧照)
云存储故障(官方未辟谣)
附带截图中还有职位为SA的人回复为云盘问题
合理推测
首先官方定义此次事故是因为基础设置故障,并且排除了删库跑路等猜测;开始有流传是TIDB的问题,也被TIDB官方证实是假消息。
排除以上所有猜测 目前所有的线索均指向云存储,作为一个非内部人士,我们可以从一些公开的消息来找一些线索!
2023年9月10日,网易服务端开发工程师发布博文“网易国产开源分布式存储系统---Curve”介绍了网易自己的开源云存储系统Curve
原文链接
既然是开源项目那么我们可以在github来找找看
但是该项目在2024年之后就没有再更新,这和前面传言降本增效 云存储全被裁员的相互印证。
同时在某社交网站2024年1月15日,有网易curve的项目组员工发文,该项目被枪毙,马上被离职,时间上和github的停止更新时间相互佐证,三个独立的消息源相互佐证,应该可以认为是被证实的。
从前面的官方博文“网易国产开源分布式存储系统---Curve”中可以得知该云存储项目已经在网易内部大量上线,而且推测在2024年之前运行都比较稳定,并且博文中还介绍该产品主要亮点易运维;连续几年的稳定运行,运维简单容易,导致领导认为这个项目组的成员都是吃闲饭的,并在2024年初被整体优化!
基于以上的公开信息推测整个的逻辑链条大概是这样的:
2020年前后网易自研开源云存储项目curve, 2022年前后开始陆陆续续大规模上线,并且在上线之后运行稳定;由于该云存储运行稳定,运维简单,该项目组存在感越来越低,2024年初该项目被网易放弃,成员被离职或者转岗;2024年Q2网易云音乐做了数据迁移,由杭州迁移至贵州,也是为了降本。8/19日网易云音乐,网易门户出现重大故障,停机时间长达2.5小时。
以上均是基于公开信息的猜测,最终还是以网易官方公告为准!
思考
作为一个数据库博主,存在感一直是我比较纠结的问题,如果你运维的数据库一直很稳定,那么老板可能会忽略你的存在;如果一直出问题,那老板会认为你能力有问题!如果能找到平衡点是个值得思考的问题。
开发也一样,你开发的项目又稳定,又高效,又运维简单, 那么老板要养着你多久?两年?五年?还是十年?
无论开发还是运维,都需要刷点存在感,不然真的容易被裁员啊!
更多推荐
所有评论(0)