作者/IT时报实习记者孙永辉
编辑/孙艳
上阿里云热搜,却是“崩溃”的热搜。
“淘宝崩了”、“钉钉崩了”、“闲鱼崩了”……11月12日晚,阿里云因多个应用出现故障登上热搜榜。 该话题引发了包括知乎、小红在内的众多网友的讨论。 在数、脉脉等平台上,关于“阿里云崩盘”的话题也层出不穷。 阿里云此前已经发生过多次失败,但这次影响范围之广实属罕见。
阿里云实时“官方公告”处理进度:11月12日18时14分,阿里云发布公告称,自17时44分起,阿里云产品控制台访问及API调用出现异常,工程师紧急介入处理故障排除; 17点50分,阿里云确认故障原因与底层服务组件有关; 18时54分,公告显示杭州、北京等地区控制台及API服务已恢复; 19时20分,公告称工程师分批重启组件服务。 大部分地区已恢复控制台和API服务; 截至21时11分,公告显示,所有受影响的云产品均已恢复。
这并不是阿里云的第一次事故。 2018年6月,阿里云被曝重大技术故障,持续近半小时; 2019年3月,发生疑似宕机,影响部分互联网企业; 2022年12月,香港区可用区C发生大规模服务中断,对众多客户的业务造成重大影响,且影响扩大至香港可用区的EBS、OSS、RDS等云服务C... 6年内多次发生不同程度的失败,让人不禁思考:阿里云还值得信赖吗?
01 底层服务组件故障“牵一发而动全身”
从事发当天第一时间发布响应公告,到当晚发布“云产品已恢复”结果,整个事件历时3个小时,影响地域范围广泛,如华南1号(深圳)、西南1号(深圳)等。成都)、华南3(广州)、华东1(杭州)、华北5(呼和浩特)等,以及海外如印度(孟买)、英国(伦敦)、美国(硅谷) 、韩国(首尔)等
公司使用阿里云服务的欣蓉(化名)告诉《IT时报》记者,公司相关业务运营受到很大影响,她的研发同事周日“被迫”加班几个小时。 “我觉得这次主要是因为阿里云的AK认证异常,影响到了OSS和MQ这两个组件,其他公司的很多服务都使用了阿里云的这两个组件,所以当它们被破坏的时候,就会受到牵连。” 欣荣说道。
底层服务组件在中台中发挥着关键作用。 行业专家王奇(化名)告诉《IT时报》记者,阿里云本身采用的是大中台的技术架构。 中间平台高度复杂、密集。 当底层出现错误时,需要完成容灾切换和恢复。 难度较高。 “相当于‘大脑’瘫痪了。” 王琪表示,目前故障虽然已经恢复,但如果在发生之前不处理好或者预防的话,随时会再次面临“瘫痪”。
中间平台的故障不仅仅会发生在阿里云上。 在王奇看来,任何拥有云计算服务的公司都会有失败的风险。
02 裁员和管理是否会成为“导火索”?
《IT时报》此前报道,今年5月,有关阿里巴巴裁员的消息在微博、脉脉等各大社交媒体上引发热议。 此次裁员涉及桃田集团、菜鸟、本地生活、云智能集团、大文娱乐等板块。 其中,阿里巴巴六大业务之一的阿里云智能被曝裁员约7%。 当时阿里云回应称,这是公司正常的组织定位和人员优化。
阿里云智能人员对媒体表示:“每年公司都会进行正常的组织岗位和人员优化,本次人事调整将在5月份进行,将在4月底年终奖金发放完毕后启动。”整体优化比例在7%左右,薪酬标准为N+1+1,未休年假、陪伴假等可打折。
据阿里巴巴第二季度业绩报告显示,截至今年6月底,阿里巴巴员工人数较3月份的235216人减少了6541人。 仅2023年上半年,阿里巴巴就裁员11065人。 阿里巴巴集团官方微博此前回应称,六大事业群2023年共需要招聘1.5万名新员工,其中学校招聘3000多人。
人们普遍认为,裁员,尤其是高级技术人才的缺乏,可能是阿里云大规模倒闭的主要原因。 王奇还表示,维护复杂的中间平台需要大量专业的开发和运营人员,而阿里云今年的裁员或多或少对此造成了影响。 此外,管理也是因素之一。
独立分析师付亮也表示,今年阿里巴巴管理模式的重大调整可能会带来新的管理风险。 “从管理层面,阿里巴巴全面推进各事业群及其下属公司的独立性,以及各主体之间的‘公司化协议运作’,各事业群及符合条件的公司独立盈亏,其结果必然是各业务群集团及公司强化盈利项目,压缩非盈利项目,跨业务集团的支持难免受到盈利目标的影响。
“阿里云的内部能量正在从‘云’转向仍处于投资期的大型AI模型。” 付亮说道。
在本月初举行的云栖大会上,阿里云发布了大规模机器人模型解决方案,号称将统一千文、统一万象等基础模型与阿里云物联网平台融合,将机器人知识库问答和流程流程代码全面融合生成、机械臂轨迹规划、3D目标检测和动态环境理解等能力可以显着降低机器人开发门槛。 付亮认为,阿里云高管调整、业务团队变动、精力转移等,增加了不确定性,降低了业务稳定性。 “利润考核逐步降低,降低成本提高利润,但资源配置却减少,这是阿里云业务支撑存在隐患的重要原因。”
排版/季佳莹
来源/《IT时报》公众号vittimes