科大讯飞在语音及语言、自然语言理解、机器学习推理及自主学习等领域保持着国际前沿技术水平,同时在机器翻译、自然语言理解、图像识别、图像理解、知识图谱、知识发现、机器推理等方向上也处于业界领先水平,是国内当之无愧的人工智能领头羊。人工智能是高度依赖IT的行业,大量数据和计算的强有力支撑,也成为成就科大讯飞技术领先性的重要因素。
科大讯飞的数据平台架构和重点
谈到人工智能,不得不提深度学习,如今通过深度学习技术来实现人工智能,已成为业界普遍接受的共识。深度学习概念,在上个世纪80年代就已经被提出,但直到近些年才真正得以重视和应用,其背后是因为深度学习所依赖的两大要素(海量被标记的数据和强大的算力)成为现实,人工智能实质上变成了对数据的处理和计算的科学。科大讯飞人工智能的数据处理,也采用了业界主流的处理流程,可以通过下面的图示来描述:
在整个数据处理过程中,不同阶段所使用的技术,以及这些技术对数据访问的要求都有差别。数据处理的各个阶段及每个阶段对数据的访问特点如下图所示:
在数据准备阶段,科大讯飞采用Hadoop等大数据技术对数据进行清洗;模型训练阶段是整个处理过程的核心,它负责从海量数据的特征中通过深度学习算法,获得可交付的模型,用于人工智能产品和方案中。
科大讯飞的基础架构团队,需要为各个人工智能团队及业务部门提供稳定、高性能的训练存储平台,同时管理近千台高性能GPU服务器,训练使用的存储平台性能如何,直接影响业务部门的训练效率,是整个数据处理流程的重中之重,也是优化训练平台的切入点。
为了满足众多人工智能业务部门训练的需要,科大讯飞用于模型训练的数据平台必须具备以下特性:
保证高带宽、低延时的读写特性,从而为GPU服务器提供足够的数据输入,确保GPU的高效使用
支持十亿级别的小文件及部分大文件混合的读写场景,满足大量特征文件或聚合后的文件存储需求
上层训练模型使用标准文件接口访问数据
能支持数千台高性能计算节点的并发访问
为逐步容器化的训练任务提供无缝数据访问能力
为什么选择YRCloudFile
作为训练的数据平台
焱融科技和科大讯飞从2019年开始,就进行了多次的交流和实际测试。科大讯飞的技术团队对训练使用的存储平台选型非常重视,最为关注的是数据平台的实际性能,包括大文件的随机读写、小文件的读写性能;海量元数据的操作性能(creation、stat、removal等);海量文件的支持,以及在海量文件的背景下,数据访问和操作性能是否保持一致;存储平台的稳定性;在故障场景,尤其是元数据服务故障场景下,集群性能的稳定性;与容器平台的对接;数据生命周期的管理等多方面能力。这些严格的评估标准,也是从实际业务的诉求和科大讯飞基础架构团队在多年的实际工作积累中提炼出来的。
YRCloudFile在架构上,可以完全与硬件解耦;在通用的服务器上就能充分发挥出高速存储介质和网络的性能,相对于其它的存储产品,性能领先数倍;元数据处理和访问性能,在故障场景下,元数据的访问性能尤为突出,充分满足海量小文件的访问需求和特点;在容器平台对接、冷热数据分层上具有特色鲜明的功能。综合产品多方面的考量要素,YRCloudFile是最贴近科大讯飞训练数据平台的高性能分布式文件存储产品。
在科大讯飞对焱融科技YRCloudFile进行深入了解和测试之后,双方达成了全面的合作。
YRCloudFile在科大讯飞的运行状况
随着科大讯飞和焱融科技的共同合作,YRCloudFile得以快速应用在科大讯飞核心的大规模深度学习训练集群生产环境中。凭借YRCloudFile灵活的软件部署架构和界面化快速部署能力以及焱融科技的全方位售后服务,从第一个YRCloudFile集群上线,到后续数个集群陆续部署,数据快速增长,只经历短短几个月时间,总数据规模已达到近10PB,存放近百亿用于训练的音频、视频、图片文件,单集群峰值带宽达近十GB/s,训练效率大幅提升。
科大讯飞训练集群容量快速增长
整个科大讯飞语音训练平台服务于科大讯飞内部人工智能研究院近千台高性能计算服务器,大量科学家和算法工程师通过这些数据对模型进行持续优化,完成科大讯飞各类语音服务的产品输出。
在YRCloudFile服务科大讯飞过程中,焱融科技和科大讯飞的基础架构团队保持密切的沟通,通过数据IO模型特点的分析,焱融科技研发团队进一步针对科大讯飞的数据特点对YRCloudFile进行产品层面的优化,由此形成了YRCloudFile部署->IO特点分析->读写优化->更新上线的完整闭环。双方技术团队,基于YRCloudFile在2019年的IO500测试中,获得了全球第六的成绩。
YRCloudFile也通过在科大讯飞大规模的使用,快速积累更多服务人工智能企业高性能存储场景的经验和能力,产品得到了进一步的增强,也证明了YRCloudFile的产品稳定性及性能优势。
YRCloudFile在科大讯飞未来的规划
目前YRCloudFile已经为科大讯飞的训练集群提供了大规模的高性能数据服务,接下来还会继续扩大在此场景下的使用。
YRCloudFile还提供了很好的云原生存储的能力,包括支持容器跨节点重建、PVC Quota、PVC扩容、PVC QoS、热点分析等特性,也是国内首个进入CNCF LandScape的云原生存储产品,因而,科大讯飞未来计划将YRCloudFile进一步应用在内部大量的云原生应用场景中。
焱融科技的技术团队还会开放更多的SDK,帮助科大讯飞将YRCloudFile整合到讯飞云平台中,为更多业务提供基础的共享文件系统服务。
YRCloudFile给科大讯飞带来的价值
正如我们所介绍的那样,海量数据和强大算力是深度学习得以发挥作用的两大要素。YRCloudFile作为科大讯飞深度学习集群中所使用的高性能文件系统,在提供人工智能基础架构的核心存储服务的同时,也逐步体现出越来越大的商业价值。
训练时间大幅缩短。相对于曾经使用的其它商业存储,YRCloudFile的高带宽、低延时特性,能够使GPU等计算服务器的计算效率达到饱和,从而将单次训练时间由一周缩短至数小时。