底层服务组件故障，专家：牵一发而动全身

导读底层服务组件故障，专家：牵一发而动全身作者／ IT时报见习记者孙永会编辑／孙妍阿里云上热搜了，但却是“崩”上热搜。

底层服务组件失效，专家：一招牵一发而动全身

作者/IT时报实习记者孙永辉

编辑/孙艳

上阿里云热搜，却是“崩溃”的热搜。

阿里云一个月崩两次

“淘宝崩了”、“钉钉崩了”、“闲鱼崩了”……11月12日晚，阿里云因多个应用出现故障登上热搜榜。该话题引发了包括知乎、小红在内的众多网友的讨论。在数、脉脉等平台上，关于“阿里云崩盘”的话题也层出不穷。阿里云此前已经发生过多次失败，但这次影响范围之广实属罕见。

阿里云实时“官方公告”处理进度：11月12日18时14分，阿里云发布公告称，自17时44分起，阿里云产品控制台访问及API调用出现异常，工程师紧急介入处理故障排除; 17点50分，阿里云确认故障原因与底层服务组件有关； 18时54分，公告显示杭州、北京等地区控制台及API服务已恢复； 19时20分，公告称工程师分批重启组件服务。大部分地区已恢复控制台和API服务；截至21时11分，公告显示，所有受影响的云产品均已恢复。

这并不是阿里云的第一次事故。 2018年6月，阿里云被曝重大技术故障，持续近半小时； 2019年3月，发生疑似宕机，影响部分互联网企业； 2022年12月，香港区可用区C发生大规模服务中断，对众多客户的业务造成重大影响，且影响扩大至香港可用区的EBS、OSS、RDS等云服务C... 6年内多次发生不同程度的失败，让人不禁思考：阿里云还值得信赖吗？

阿里云一个月崩两次

01 底层服务组件故障“牵一发而动全身”

从事发当天第一时间发布响应公告，到当晚发布“云产品已恢复”结果，整个事件历时3个小时，影响地域范围广泛，如华南1号（深圳）、西南1号（深圳）等。成都）、华南3（广州）、华东1（杭州）、华北5（呼和浩特）等，以及海外如印度（孟买）、英国（伦敦）、美国（硅谷）、韩国（首尔）等

公司使用阿里云服务的欣蓉（化名）告诉《IT时报》记者，公司相关业务运营受到很大影响，她的研发同事周日“被迫”加班几个小时。 “我觉得这次主要是因为阿里云的AK认证异常，影响到了OSS和MQ这两个组件，其他公司的很多服务都使用了阿里云的这两个组件，所以当它们被破坏的时候，就会受到牵连。” 欣荣说道。

底层服务组件在中台中发挥着关键作用。行业专家王奇（化名）告诉《IT时报》记者，阿里云本身采用的是大中台的技术架构。中间平台高度复杂、密集。当底层出现错误时，需要完成容灾切换和恢复。难度较高。 “相当于‘大脑’瘫痪了。” 王琪表示，目前故障虽然已经恢复，但如果在发生之前不处理好或者预防的话，随时会再次面临“瘫痪”。

中间平台的故障不仅仅会发生在阿里云上。在王奇看来，任何拥有云计算服务的公司都会有失败的风险。

02 裁员和管理是否会成为“导火索”？

《IT时报》此前报道，今年5月，有关阿里巴巴裁员的消息在微博、脉脉等各大社交媒体上引发热议。此次裁员涉及桃田集团、菜鸟、本地生活、云智能集团、大文娱乐等板块。其中，阿里巴巴六大业务之一的阿里云智能被曝裁员约7%。当时阿里云回应称，这是公司正常的组织定位和人员优化。

阿里云一个月崩两次

阿里云智能人员对媒体表示：“每年公司都会进行正常的组织岗位和人员优化，本次人事调整将在5月份进行，将在4月底年终奖金发放完毕后启动。”整体优化比例在7%左右，薪酬标准为N+1+1，未休年假、陪伴假等可打折。

据阿里巴巴第二季度业绩报告显示，截至今年6月底，阿里巴巴员工人数较3月份的235216人减少了6541人。仅2023年上半年，阿里巴巴就裁员11065人。阿里巴巴集团官方微博此前回应称，六大事业群2023年共需要招聘1.5万名新员工，其中学校招聘3000多人。

人们普遍认为，裁员，尤其是高级技术人才的缺乏，可能是阿里云大规模倒闭的主要原因。王奇还表示，维护复杂的中间平台需要大量专业的开发和运营人员，而阿里云今年的裁员或多或少对此造成了影响。此外，管理也是因素之一。

独立分析师付亮也表示，今年阿里巴巴管理模式的重大调整可能会带来新的管理风险。 “从管理层面，阿里巴巴全面推进各事业群及其下属公司的独立性，以及各主体之间的‘公司化协议运作’，各事业群及符合条件的公司独立盈亏，其结果必然是各业务群集团及公司强化盈利项目，压缩非盈利项目，跨业务集团的支持难免受到盈利目标的影响。

阿里云一个月崩两次

“阿里云的内部能量正在从‘云’转向仍处于投资期的大型AI模型。” 付亮说道。

在本月初举行的云栖大会上，阿里云发布了大规模机器人模型解决方案，号称将统一千文、统一万象等基础模型与阿里云物联网平台融合，将机器人知识库问答和流程流程代码全面融合生成、机械臂轨迹规划、3D目标检测和动态环境理解等能力可以显着降低机器人开发门槛。付亮认为，阿里云高管调整、业务团队变动、精力转移等，增加了不确定性，降低了业务稳定性。 “利润考核逐步降低，降低成本提高利润，但资源配置却减少，这是阿里云业务支撑存在隐患的重要原因。”

排版/季佳莹

来源/《IT时报》公众号vittimes

底层服务组件故障，专家：牵一发而动全身

猜你喜欢：

最新文章：