撰写者 |芸汐
编辑|孟哥
图片来源|网络
封面|古无名-亚特兰蒂斯
又一年的“双11”已经吹响。
海上,全球数十亿民众、数百万企业正在为这场狂欢做准备。海底,千亿交易数据背后有猛兽窥视:挖矿蠕虫、勒索病毒、DDoS攻击、暴力破解、代码注入……
狂欢节之外,平静的海面下潜藏着危险。
但有一群人选择留在深海,与全球数百万黑客发起的数十亿次攻击进行惊心动魄的搏斗。十多年来,他们驻扎在虚拟世界,在云端筑起了一座坚不可摧的堡垒。
战士与大海的故事其实每天都在上演。
2014年,阿里云迎来飞天5K。底层基础设施的变化使阿里云计算的规模和效率迈上了新的台阶。但与此同时,云上的安全防护难度也呈指数级增长。
阿里云迫切需要一支强大的云平台安全团队。作为阿里巴巴第一位安全工程师,小李是在关键时刻被任命的。他不仅要保证自己云平台的安全,还要探索如何为云客户提供像阿里巴巴一样的保护能力。
当务之急是打造一支能在压力下作战的团队。
东昌(花名)被小李“针对”。之所以有这个昵称,是因为前后进阿里的哥们的昵称叫西昌。
当他得知自己将负责云基础设施安全时,他的第一个想法是“我就等着离开吧”。
传统的离线防护仅分为两层——内部网络和外部网络(互联网)。安全人员使用 HIDS(主机入侵检测系统)来控制内部动态,在外部,他们可以在边界处放置防火墙来控制传入和传出流量。
云上的网络架构有四层。最外层是互联网,然后有云服务提供商管理的内部和外部网络两层。内部网络也会被切分成块供用户租用,即VPC( )。租户还将在VPC层创建自己的内部和外部网络。早期的云产品部署在多个网络层上。为了方便客户接入,需要在各网络层之间“打孔”。随着云产品和用户越来越多,需要开通的路径也越来越复杂,风险也越来越大。
如果把互联网比作世界,云服务商就像一个城市主人,VPC就是专门为居民建造的房子,云产品就是城市主人提供的各种公共服务和设施,包括医院、火车站、电影院、学校,每天有数以千万计的人需要与外界沟通、出行、交流。黑客们渴望携带病毒。建立一套完整的保护体系是困难的,这是可以理解的。
他的面前有一座大山。东昌环顾四周,除了自己和几个刚毕业的年轻人,只有凉风拂面。
东昌仍然在云基础设施保护问题上苦苦挣扎。小李决定从DDoS防御入手,打造第一个商用云安全产品。这个任务落到了原本在事业单位从事运维的简悦身上。 (花名)在头上。
还没等简岳了解云上的情况,就被迫向地狱般难度的安全产品发起挑战。
DDoS 是一种分布式拒绝服务攻击。攻击者通过入侵和感染,将分散在各地的数万台正常机器变成傀儡机(即肉鸡)发起集中攻击,利用巨大的流量使目标网站崩溃。
假设一家公司在网上开设了一家商店。为了勒索店主,攻击者专门找了一群傀儡堵住入口,占用网络流量,让正常顾客无法进入店内购物;或者他们让这些傀儡直接坐在商店里占据计算能力。服务员太忙了,没有精力处理正常的顾客订单。这是 DDoS 攻击。
如果你想防御DDoS攻击,如果你想自建机房,就要花费百万以上;您想聘请外部安全团队吗?打扰一下。由于DDoS防御需要极高的带宽容量,市场上的DDoS防御公司每个月仅在带宽上的花费就高达数千万,几乎难以为继。因此,DDoS自2000年诞生以来,一直被认为是网络安全领域最困难的攻击手段。
云计算的本质是将整个计算能力变成一种服务,这本身就需要巨大的带宽。基于这种红利和云计算的发展需求,阿里云安全团队具备构建整个DDoS防御的先天能力。之后,AWS和AWS也开始构建DDoS防护能力。
“100G。”小李拍拍简越的肩膀,给他布置了一个“小目标”。 “自主研发的防御系统必须能够承受100G。”
2013年,市场上最好的防御产品只能承受40G,第一个是100G。简越感到压力很大。
传统的DDoS防护,企业需要控制多达1000个自有IP。然而,云作为公共基础设施,拥有数百万个IP,面临高频次、手段不断变化的攻击。准确识别异常访问并快速清理并不容易。
以往防御只需将所有IP移至防护设备上即可彻底清洗攻击流量。但云上的流量往往是以T来计算的,所以所有的访问都必须经过防护设备?一个幻想!
对于云环境下的DDoS防护来说,检测、响应和防护变得前所未有的重要,而且必须“准确”和“快速”。
“但这是一个两难的境地。”简越头疼。 “准”是指给检测系统更多的时间来做出详细的决策,而“快”是指防御系统必须在几秒钟内将异常流量转移到保护设备中。 。如果正常的流量被判定为异常,业务方肯定不会这么做;但如果防护延迟,进程还没完成,机房就会瘫痪,损失将难以估量。
但尽管困难重重,我们还是要开始。一年后,阿里云自研DDoS防御上线。这套安全产品包括检测、管控、防御三大核心系统。
检测系统用于检测异常流量;管控系统类似于大脑,用来决定采取什么策略进行防御;防御系统根据管控指令,按照细粒度的策略进行流量清洗。
不幸的是,刚刚起步的新系统的性能“薄弱且令人沮丧”。
起初,研发团队根据历史IP流量来设定阈值,但这很容易导致误判。面对双十一这样的情况,激增的流量可能会被系统拉去进行清洗。当时,简悦团队经常被批评,“你们的系统太弱了,一开始活动就关闭了”。
简岳只能满脸微笑,带领团队赶紧修正。但他决心完善 DDoS 防御产品,直到他们没有什么可抱怨的。
这里的DDoS团队正在努力改正,而筑起了云自己护城河的东昌也在每天带领着团队救火。
所谓云计算,就是通过虚拟化技术,将线下IDC机房的物理机转化为虚拟机。当时刚刚起步的阿里云基于Xen架构的虚拟化技术还不够成熟。每三天发生 1 次故障,每 7 天发生 1 次故障。安全级别也漏洞百出。东昌做梦都在灭火。
如果离线机房出现问题,可以暂停计算机并打补丁重新启动。但由于阿里云上数十万个虚拟机上运行着数百万用户,东昌团队必须在不重启或影响业务的情况下应用补丁。 “这真的就像驾驶飞机更换发动机一样。”
安全团队和虚拟化团队花了整整一年的时间,研发出业界首个基于Xen架构的“热修复技术”,无需重启即可修复漏洞。
但漏洞依然存在,团队每天仍需要扫雷、灭火。期间,阿里云总裁王健时不时地带着高管拜访客户,并多次道歉。
直到2015年,阿里云将使用了4年的底层架构替换为当前主流的KVM架构。性能提升了数十倍,稳定性也大幅提升。
阿里云终于走到了历史转折点。 2016年第一季度,阿里云营收10.66亿元,系统调用量以每年五倍的速度增长。这一切都在倒逼安全团队的能力升级。

东昌咬牙决定在KVM架构上集成一套探索系统,防止虚拟化逃逸。 (即通过虚拟机或虚拟机中运行的软件的漏洞进行攻击)
这个想法很棒,但是谁能做到呢?
安全领域垂直度较高,行业内既懂虚拟技术又懂安全的人很少。他在行业里苦苦搜寻了一整年,才招到了一名人才。也许过程太艰难了。丢下“衣钵”后,对方一挥袖子就走,“能做的事,忍不了就得扛!”团队共同努力,修建了这条保护河。
如今,该系统已全面部署在阿里云平台上。
几经周折,云安全的护城河终于成型。 DDoS团队逐渐找到了跨越“快”和“准”两个高峰的方法。
“仅仅看流量肯定是不够的。”简岳痛定思痛,决定带领大家“剥洋葱”。如果说检测流量只是剥洋葱皮,那么DDoS团队需要剥得更细,对数据包进行拆分和分类,追踪原始站点的流量类型,结合历史流量包的组成部分,剥皮一层层剥去,去伪存真。
这么“准”是“准”,但不会“快”。此前,简岳专门研究了苹果和微软的操作系统机制,并验证只要能在3秒内完成保护,用户就不会察觉。也就是说,三大核心系统必须在1秒之内完成所有工作才算“快”。
没错,就是1秒之内。当简岳提出这个目标时,研发团队沉默了。工程师们埋头检查、优化、改进算法,甚至重写、替换……一行行代码浮出水面,三大核心系统的性能得到提升,蓄势待发。
所有人都信心十足,但意想不到的事情发生了。
每个系统的检测、控制和保护确实在1秒之内,但一旦进入保护状态,时间就会跳到4秒、8秒,甚至10秒。
气氛一滞。
团队进行紧急排查,进行全链路故障排除。经过2个月的排查应用问题、恢复链路流程、记录每个节点对应的流量变化和时间,他们终于发现流量迁移时间有误。经过仔细定位,时间卡在了路由器上。
当异常流量进入,管控系统向防护系统发出指令时,路由器会改变方向,让黑色流量进入之前准备好的防护系统进行清洗。
默认的路由器扩散时间是 10 秒,这阻碍了它!
经过调整优化,我们再次测试——3秒,稳定!
阿里云DDoS一手将“3秒”变成了未来的行业标准。
但真正让DDoS团队脱颖而出的是互联网史上另一场最大规模的DDoS攻防战。
2014年12月20日,知名游戏公司阿里云遭遇全球互联网历史上最大规模的互联网攻击,峰值达450G。
DDoS团队、网络、研发、业务甚至财务都齐聚一堂,召开了一次难得的会议,讨论解决方案。财务部门算了一笔账,发现如果帮助客户抵御这一波攻击,还得额外支付2000万。
12月20日晚开始,黑客再次发起攻势。傀儡们聚集起来,假装正常通行,冲向门户入口。在通过入口路线的瞬间,检测系统发现异常,管控下达两层过滤指令,保护大流量不准进入。小流量就地排查,防护设备同步切入预定策略,流量层层过滤5层检查,正常访问按照原轨迹访问,异常流量隐形清理淘汰。
这一切依然是在3秒内完成。 DDoS 团队彻夜未眠,盯着屏幕上的尖峰。流量猛增450G,直到460G……黑客最终放弃,一切恢复平静。
2015年,小李将WAF列为继DDoS之后的第二大类别。他预测WAF将成为企业安全的主力军。
WAF,也称为Web应用防火墙,人们通过网络所能感知到的日常任务,如浏览网页、下载数据包等,都是在Web应用层执行的。随着边缘计算、物联网、移动互联网时代的到来,通用的边界隔离是有效的,Web协议功能足够强大,足以支持任何企业应用需求。
WAF 也由建岳领导。
简岳用硬核能力抵御流量侧攻击。戴斌(花名)持续利用云原生和创新技术优势,帮助客户构建更加完善的企业安全体系,包括主机安全、敏感数据保护、云防火墙等。
过去,安全产品是碎片化的。安全厂商很乐意将复杂的云安全分离成单独的产品并推出每个产品,而每个产品都是一个数据孤岛。但戴斌认为,有必要利用云原生安全的优势,整合安全产品,为用户提供更简单、更便捷、更集成的安全管理能力,让企业更好地适应数字化转型的快速发展。
为此,当他在2019年元旦宣布将安骑士和态势感知两款云安全产品合并到云安全中心时,群里炸了。毕竟这两种产品都包含研发。团队多年努力,深受市场好评。
“所有人都反对我,没有人支持我。”戴斌苦笑。 “服务器骑士”针对的是主机安全,而“态势感知”则可以分析检测云端大数据的安全性。两者位置重叠,导致用户常常分不清选择哪一个,无形中增加了运维成本。
一体化是大势所趋。但这始终是一个残酷的决定。研发团队的工程师们几乎哭了,结束了他们多年的心血。
对于戴斌来说,风险同样巨大。这两款产品太重要了,一下子就被禁止了,造就了一个前所未有的“云安全中心”。抛开研发的难度不谈,新产品必须比以前更加受到市场和用户的认可,才能弥补之前的利润,而这一切谁都无法预测。
除了收入之外,客户是第一位的,所以戴斌还是决定试一试。
2019年4月,云安全中心上线。与其说它是一个产品,不如说是一个集实时识别、分析、预警、追溯于一体的统一安全管理系统。用户一屏掌握安全动态,只需点击鼠标即可保护自己。一个产品实现了一套完整的自闭环。
戴斌团队还打造了云防火墙、敏感数据防护等保护网络安全边界的产品。它们还提供一键式保护,一目了然。
云安全中心上线的喜悦并未散去,但新的挑战却直接来到了戴斌团队的面前。
2019年8月,凌晨一点,戴斌在杭州接到紧急求助电话。
北京某大型在线教育机构数千台服务器在短短2小时内中毒感染。红色警告遍布整个机房。华东地区业务濒临停滞,形势危急。对方既有线下机房,又有几大云服务商的云服务,无奈之下找到了阿里云。
放下电话,戴斌从床上跳起来,联系团队的安全专家立即开战——
1点30分,云防火墙启动,隔离中毒机器,紧急止血;
半小时后,入侵点定位,一台离线运维服务器被入侵。黑客获得管理权限,利用傀儡机直接控制其他机器,在短时间内造成如此巨大的破坏;
3点多,云安全中心追踪到漏洞来源。该团队检查了服务器日志,审核了可疑代码并进行了故障排除。最终,他们在一台虚拟机上找到了突破点,清理了漏洞,一举封堵了黑客入侵通道。
戴斌深吸了一口气,看了看手表。战斗在2小时内结束。这个结果是预料之中的。 “阿里巴巴的理念是让天下没有难做的生意。我们要做的就是让天下没有难做的生意,安全。”操作和维护。”
战争不会结束。
数据领域的扩张速度比任何人想象的都要快。 2019年,全球数据总量达到41ZB,2025年将达到这一数字。单纯依靠传统人力来保护数字世界已经不再可能。安全专家和机器智能之间的合作是未来。
小李早在2016年就做出了下一步行动,秘密组建了智能安防团队,但进展缓慢。 2018年的最后一天,90后的楚安(华明饰)接过了重任。上任前,朋友们劝他,“这个领域太难了,一团糟,很难出成绩。”

楚安,意为“懂安全”,上班第一天,他就热情讲解了智能安全的使命愿景和三大基本法则。但大家都一脸狐疑,“你说这么多,不如多写几行代码。”
15人的团队多年来一直找不到方向。公司不断投入各种资源。每次开会,年轻人都抬不起头来。没有人相信他们可以利用机器智能重塑新的安全,甚至连他们自己也不相信。所有人都会失去信心。
但道路必须修筑。 2019年,阿里云已成为亚太第一、全球第三大云服务提供商。它每天进行超过 100 亿次系统调用,为全球 10 亿人提供服务。在如此大的范围内,即使是小概率事件也会造成难以承受的后果。
传统安全厂商习惯于用一套防御系统来解决所有问题。这就像只使用一扇安全门来保护所有顾客。但云上生灵五花八门,对付数千人的粗犷防御越来越困难。实现千人一面,智能防御成为破局的必由之路。
楚安选择了最艰难的一条路——WAF智能核心。
拥有智能核心的WAF就像拥有了大脑。可根据不同业务场景和客户特点,实现千人防护。但前提是:智能核心能够识别所有异常情况。
在主流的入侵检测系统下,计算机首先必须知道异常和攻击是什么样的,然后才能进行相应的检测和防御。一旦遇到新类型的攻击或漏洞,就只能坐以待毙。这是一种被动防御。
楚安的队伍寻找一切打破局面的办法,但都被阻拦。于是他想出了逆向操作的想法:“既然不可能识别出所有异常,那就识别出正常,释放绝对正常,审查所有异常。”这样,即使是新型的漏洞和攻击也无法绕过这层防御。
那么,如何定义正常呢?楚安的回答出奇的简单,大部分都是正常的。
正常总是基本相似的,但异常却有自己的不同。无论黑客多么优秀,也几乎不可能同时控制互联网上的绝大多数人。
解决异常只是第一步。接下来,他们要在海量异常中准确筛选出攻击,并让机器自主决策,生成相应的检测策略。
此外,检测引擎必须在超大流量环境下支持数十万种检测策略,并在毫秒级内完成整个检测过程,这也对引擎性能提出了巨大的挑战。
团队提出的系统颠覆了传统的攻击检测理念和技术架构,引发更多质疑。
为了平息争议,智能安防团队首先在国际人工智能顶级学术会议上发表了研究成果,以证实其理论可行性。没想到这一举动被认为是华而不实,引发更多质疑。
据说,在开发出真正的智能安全系统之前,所有解释都将是徒劳的。
他屏蔽了所有声音,并带领他的团队开发了智能核心。
正当智能安防团队憋足了劲,准备干一番大事的时候,却面临着没人敢用的困境。
“我们还要坚持多久?”一些成员心灰意冷,想到了换工作。
楚安生明白,团队中数据技术和机器智能领域的专家,早已能够在更加成熟的赛道上大放异彩,并不像现在这么狼狈。
幸运的是,终于有人站出来了。
WAF和DDoS产品经理简岳和研发经理兴山(华明)决定尝试一下。 “虽然我们不知道这是否会带来问题,也不知道是否有效,但我们会拭目以待。只有先用过才知道。”
随即,WAF团队开始了技术架构的升级工作。
WAF智能核心上线的那天,所有人都紧张地盯着屏幕。一两天过去了,没有发生任何事情。几个月过去了,好消息频传:在整体攻击检测能力不断提升的同时,误报和漏报相比过去也有所减少。过去,防御系统是一刀切的。如今,网上有数十万种检测策略和模型。每个客户都有最适合自己场景的防御系统,并且大部分是由智能代理独立生成的。
智能安防团队一扫之前的郁闷,挺起胸膛,成为“有精神的家伙”。
几个月后,全球最权威的IT评测机构评选出了AWS、微软云等12家云厂商的WAF产品。阿里云WAF是唯一获得如此高度评价的:“智能算法和智能引擎能力是阿里巴巴成功的关键。”云是一个非常强大的功能。”
随后,川团队和WAF团队荣获中国网络安全创新大会“年度技术变革奖”、安全大数据分析大赛冠军,并入选国际顶尖学术可视化IEEE VIS会议...
这些年的委屈、不甘、隐忍,如今都烟消云散了。
WAF智能引擎只是一个开始。之后,主机智能核心、安全数据中心、安全知识引擎、威胁情报等智能引擎将陆续发布……
在此期间,DDoS团队也进行了智能化升级。机器学习结合专家经验,可以在一分钟内完成以前人工需要一小时的工作,直接节省50%的人力资源。
2020年,阿里云DDoS防御进入2.0时代。在海外拥有5大清洗中心,是唯一拥有BGP防护网络的抗DDoS服务提供商。这意味着阿里云可以在各大运营商之间无缝切换,并拥有无与伦比的网络质量。
“今天,我们不再需要单独花费数百万美元来对抗 DDoS,”建岳说。
&发布的2019年大中华区DDoS防护与Web应用防火墙报告中:阿里云在DDoS防护和WAF两大安全市场中位列大中华区市场份额第一。这也是阿里云首次在DDoS防护市场上占据市场份额第一。云安全厂商超越传统安全厂商,WAF市场份额连续四年排名第一,超过第2位至第9位的总和。
有这样的实力,双11自然是轻而易举。
2019年的双11显得尤为特别。阿里巴巴集团核心系统全面上云,承受了每秒54.4万次的全球最高流量峰值。命令的背后,僵尸网络、病毒、蠕虫、木马悄然到来,这也是数百万黑客的狂欢。
肖李运筹帷幄,东厂队提前几个月开始排兵布阵;楚安团队的智能引擎不断从原始攻击数据资源中提取出数百万个恶意IP库和恶意文件。域名数据库、独立对抗规则等关键威胁情报和安全知识;建悦团队已整装待发,与全球五大清洁中心出征……
11月11日午夜,来自世界各地的攻击达到顶峰。网络世界的战争已进入白热化阶段;物理世界里,阿里云的一群安全专家平静地看着屏幕上翻滚的数据。
自动识别并拦截来自184个国家的60亿次攻击、个恶意攻击IP,实时分析2836亿条行为记录,成功防御1917次DDoS攻击……
现实世界的人们不会明白,每一次点击、每一次支付、每一次访问的背后,都在进行着什么样的胶着战斗,一群理想主义的技术人员在漫长的岁月里经历了什么样的痛苦的技术创新。
历经数年,以小李为首的这群安全工程师在数字深海中筑起了一座堡垒,让云计算像水和电一样安全,造福大众。
荣耀铸成,战斗仍在继续。
本文由航派工程师原创制作