2019年11月11日,阿里巴巴所有技术人经历了第11次技术大考。这一年,阿里巴巴实现了核心交易系统 100% 上云,总销售额达2684亿元。核心交易系统百分百上云可以说是整个基础设施最大的变化以及技术突破,在此之外,阿里巴巴的整个业务形态也发生了巨大改变。在QCon全球软件开发大会(北京站)2020 即将召开之际,InfoQ采访到了担任此次大会联席主席的阿里巴巴副总裁、2019年双11集团技术总指挥汤兴(花名:平畴)。本文将与你分享这场意义非凡的变革以及阿里新零售的技术方向。
1. 从爱奇艺CTO到淘系技术掌门人
2019年,汤兴正式加入阿里巴巴集团,任职阿里巴巴集团副总裁,花名平畴。整体负责包括淘宝技术、天猫技术、农村淘宝技术、闲鱼、躺平 等多个团队组成的新零售技术事业群淘系技术部。
翻开平畴的履历,他拥有超过十年全球 TOP IT 公司研发及管理方面的工作经验。加入阿里之前,平畴最近的一份工作经历是任职爱奇艺 CTO,他带领爱奇艺技术团队建立起全球首个基于视频数据理解人类行为的视频大脑——爱奇艺大脑,让机器能够理解视频内容,并领导在视频社交领域推出爱奇艺泡泡,开创了视频社交先河。
双11现场的平畴
双11之前,阿里宣布由平畴担任本届双 11集团技术总指挥,从视频领域到新零售领域,角色转变的同时,还要带领技术团队面对双11流量高峰的挑战,压力可想而知,但平畴很快就适应了这种变化。
看懂两者之间的内在联系与差异,就很容易在两个领域切换和适应。
采访中,平畴表示,视频是内容行业,本质上是内容虚拟商品的供给与需求匹配。阿里是电商行业,主要是实物商品的供给与需求匹配,两者既有相同之处也有不同之处,比如一个没有库存,一个有库存;一个通过线下物流履约,一个通过线上数字媒体传送;一个侧重营销交易活动运营,一个侧重主题运营活动等。无论是虚拟数字经济还是实物经济,都脱离不了零售的本质,供给与需求的有效匹配,而技术体系的框架也基本类似。
2. 第11个“双11”:一场堪比无线化的变革
2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标当年的无线化变革。
回忆起2019年的11月11日,平畴表示,淘宝经历了一场意义完全不亚于无线化的变革,那就是直播。
如今,不知还有多少人对淘宝当年的那场无线化变革印象深刻。
2013年,移动化的浪潮来了,所有人都感受到了移动化即将带来的巨变。阿里集团一声令下,正式宣布“ALL IN 无线”战略,很多人被从原有部门放到战场最前线,有人不适应走掉了,后续的再补上,就这样不断调整和优化。
2016年,现任阿里巴巴CEO张勇正式向外宣布淘宝网与无线淘宝合并,淘宝成功从PC时代转型为移动时代。事后证明,如果不是这场变革,我们很难见到如今的淘宝。
业务形态在变,技术必须跟上
“在云原生的大潮下,新一代的技术变更可能才刚刚开始,核心交易系统百分百上云可以说是整个基础设施最大的变化以及技术突破。但是,在基础设施的变化之外,整个业务形态也发生了巨大改变。”
平畴在采访中对InfoQ表示,这种业务形态的改变指的就是直播。淘宝从2015年就开始做直播,短短四年打造了一个年成交千亿的行业。
2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标 2015 年的淘宝无线化。当天,淘宝直播成交近 200 亿 (2019年双11总交易额为2684亿元),超过 50% 的品牌商家通过直播获得增长。
如今,直播已经成为天猫双11商家的标配,直播的内容形式与图文截然不同,更强调实时互动和流畅的观看体验,而这些特点对消息通道、网络和 CDN 等软硬件资源 提出了苛刻的要求。
既要保证用户体验,又要追求技术上的最低成本,包括最小带宽消耗、最大机型覆盖等。平畴带领的技术团队遇到了很大挑战。
为了解决直播中可能遇到的问题,淘宝直播技术团队自研音视频实时通信引擎,采用去中心化的设计方式,支持横向级联,实现大规模低延时直播,时延从原先的5到7秒降低至 1 秒内,并在弱网下有更好的表现。
虽然做足了准备,但平畴回想起当下,坦言还是有些担心:“很怕发生预期外的问题,尤其是新场景、新用户动线和新架构。”
实践证明,历年双11期间产生的相对严重问题,往往都不是我们预先最担心的问题,甚至绝大多数可能不在预期内。
道理很简单,无论项目的挑战或风险有多大,只要在双11前能预想到,技术侧就一定会做好预案应对最差情况,并且做好演练工作。对于预期外的问题,往往是没有准备预案或者预案有效性没有经过验证,遇到这种情况就非常挑战整个技术团队应急解决问题的能力了。不过,这也是双11的魅力所在:
我们永远没有办法对所有问题做好预案,永远有未知的挑战在前方等待,而我们唯有通过技术升级去不断地逼近那个能够做到的最好的极限。
所以,对技术人来说,双11永远没有做的最好,只有做的更好。
3. 提前一年,决定上云
今年双11,我们把“最要命”的系统全都放在云上。
这是当时阿里巴巴集团CTO、阿里云智能总裁行癫在双11当晚说的一句话。如开篇所言,2019年双11,阿里实现了核心交易系统 100% 上云,而这个决定早在一年前就做出了。
“每年双11结束,全集团都会进行一次全面的技术复盘,除了复盘在整个双11过程中的得与失,更重要的是,确定下一年双11技术的整体方向。2018年双11复盘时,集团就整体确定了将核心电商搬到云上的大策略。”
2019年1月份,上云项目正式启动,这个项目在阿里内部被称为“云创未来”。电商核心链路全面上云意味着没有云下的资源做切换与互备,平畴表示,这涉及到阿里电商数百个核心应用,上万台物理机台,总核数过百万核。可想而知,这其中的挑战有多大。
分步迁移:Q3季度进入大规模应用开发
为了实现这个目标,从机房到软件部署、网络拓扑、中间件等一系列基础设施都要先行准备并且在更早一些的大促,比如618大促中验证有效性。平畴透露,除基础设施外,每年上半年是业务上各类技术平台与框架升级迭代的黄金期,等到7、8月份,再结合双11业务的具体玩法逐步进入业务应用的大规模开发期间。
按阶段来看,平畴表示,双11上云在技术层面可以分为如下三个部分:
1、平稳迁移上云;
2、稳定使用云服务;
3、结合云技术探索新的高效研发方式。
第一阶段:应用迁移上云。
平畴表示,在这个过程中,最大的风险来源于云上基础设施和中间件等产品的变化,应用需要配合这些变化进行改造和升级。