马云创办的阿里巴巴之所以成功,离不开阿里只做“基础设施”这一战略定位。何为“基础设施”呢?
比如淘宝、天猫就是零售的基础设施,阿里提供交易平台,商家在平台上售卖商品;当商品卖出后,需要物流快递去运输,阿里又把中通、圆通、申通和百世等市面上常见的快递都投资了一遍。物流快递也是基础设施之一。
而在互联网时代,企业必备的基础设施资源又会是什么呢?毋庸置疑,那就是今天话题的主角,云计算。
阿里巴巴在云计算方面的代表性企业是“阿里云”,那么,阿里云对于阿里巴巴来说,到底有多重要呢?
云计算一直是阿里对于未来的投资。过去10年间,阿里巴巴对阿里云累计投入超过430亿人民币,而阿里云的回报也是相当优异。
根据阿里巴巴发布的2019财年Q3财报显示,2018自然年阿里云营收规模达到213.6亿元,首次突破200亿大关,上一年这一数字为111.7亿元。阿里云4年间增长了约20倍,目前已成为亚洲最大的云服务公司。
但是,迅速成长的阿里云在马云离开后,在不到一个月的时间里,接连发生3次重大故障,让人不禁担忧,阿里云到底怎么了?
新年第一弹:阿里云上企业应用遭殃
美国市场研究机构 Synergy Research Group 日前公布了 2018 年第四季度及全年的全球云基础设施服务市场数据。数据显示,阿里云已经独霸国内云服务市场:
亚马逊、阿里巴巴和微软占据了亚太地区的前三名。在中国市场,阿里云以 40.5% 的市场份额仍旧位列第一,腾讯云紧追其后排名第二。另据统计,40%的中国500强企业、近一半中国上市公司、80%中国科技类公司都在使用阿里云。
当下,阿里云已经成为“创业企业”上云的首选。然而,2019年新年刚过,阿里云年度“故障日”如约而至,这次遭殃的是部署在阿里云上的各家企业的应用:
2019年3月3日凌晨,阿里云华北2地域可用区C部分ECS服务器等实例出现IO HANG,导致国内大量互联网公司服务“瘫痪”。
阿里云发起“病”来,自己人都打
3月3日阿里云的凌晨诡异故障,阿里云对外宣称是服务器等实例出现IO HANG,经紧急排查处理后逐步恢复,将根据协议尽快赔偿。
那么,IO HANG是个什么鬼?简单的说,就是服务器磁盘读写过慢,导致线程和进程挂起。大量读写线程/进程挂起就把服务器给整死机了......一般来说,IO HANG容易发生在应用高峰期,比如白天,而凌晨时分正是运算低谷,却发生读写过慢问题导致宕机,十分蹊跷。
也许是随机性故障无法排查和复现,亦或者是阿里云的运维部门存在侥幸心理,“重启服务器”了事。但很不幸,没过几天,阿里云就把自家人给坑了!
3月20日下午,阿里系多款产品短时无法正常运作,时常约10分钟。
下午15点46左右,阿里系多款产品瘫痪,涉及App包括淘宝、天猫、淘宝直播、闲鱼等。新浪科技亲测发现,淘宝和闲鱼均出现“重新加载”提示。15点56分左右,页面逐步恢复正常。
有网友再次将故障矛头指向阿里云。据悉,阿里系几乎所有产品均在阿里云上运转。让外界颇感意外的是,阿里对外仅答复“修好了”,并未公布阿里系应用全线“崩溃”的原因。
根据猜测,短短10分钟的宕机,让阿里损失惨重,或达数亿元。
阿里系自家应用的全面宕机,反应出的是阿里体系的脆弱。在没有外界蓄意攻击的情况下,阿里在内部崩溃,时间长达10分钟,除了造成经济上的损失以外,商誉的损失也非常大。
就在昨日下午发生阿里系内部应用大规模“宕机”事故后的1天,3月21日阿里云在下午又一次发生故障!这一次是部署在阿里云上的铁路12306部分服务。下午,铁路12306的APP出现了宕机的状况,当用户搜索车票时系统显示“很抱歉,查询失败,您可以稍后点击下面按钮重试”。
购物可以暂停,医疗设备可以停机吗?高铁的调度呢?越来越依赖“云计算”的今天,作为众多商业应用“基础设施”的阿里云,在安全性上打不得一点折扣!