原标题:74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀
在数据和算法重新定义的世界中,数字化转型正构成传统企业的新竞争力,但实际被收集和利用的数据,远比人们想象中少。
▲2014-2023年全球数据空间持续增长(单位:PB)
有效数据量少、模型开发效率低、专业技术人才匮乏,这些问题在企业应用数据分析面前形成了难以跨越的天堑。一边中国市场上超半数的企业已经采用机器学习方法,实现高级数据分析预测,另一边机器学习、数据科学的普及之路仍荆棘丛生。
在这一背景下,IDC发布《数据分析新速度:加速数据科学转变成商业洞察》白皮书,重新审视数据科学的定义与生态,对机器学习、数据科学在中国市场的落地现状进行全面调研。
一、数据爆炸时代:加速AI落地中的困境
在大数据、人工智能等新兴技术的助推下,数据科学从常规数据分析发展到高级预测分析与智能预测,其定义正在被重新审视。
本白皮书中,IDC将机器学习与图算法为主的工作负载定义为数据科学,其核心技术即经典机器学习技术,正在企业用户中开始复兴。据IDC调研,当前中国市场上74%的企业已采用包含机器学习的数据科学平台,其他企业均表示在未来24个月内有计划采用这一平台。
在当前金融应用场景中,80%的分析预测模型采用机器学习模型,支撑预判欺诈风险、优化量化投资等业务应用。而每成功识别一笔欺诈交易行为,每准确预测一次市场行情变化,对企业的经济利益可能是百万级甚至上亿级。
还有在零售场景,随着个性化服务需求升级,更多零售企业正通过机器学习形成线下线上融合的用户画像追踪,实现千人千面精准营销,显著提升用户粘度。
数据科学在文娱、教育、电信、制造、医疗、政府等、媒体、能源、交通、地产等行业中均得到广泛应用。根据IDC提供的数据,中国企业在深度学习和机器学习方面的投入持续增加,高级数据预测分析、经典机器学习相关的市场规模在2018年达到3.0亿美金,预计到2022年将达到29亿美金。
▲2018-2022年中国人工智能应用市场规模(单位:百万美金)
不过企业要想应用机器学习,还需先解决很多挑战。
首先,数据准备和建模耗时长。其次,数据资源严重匮乏。IDC调研发现,目前只有一线互联网公司拥有超数千PB级别数据,大部分企业的数据量仅在1TB-20TB之间。另外企业积累的大部分数据不能直接用于模型训练,被注入到AI模型的数据不足1%。此外,数据科学工作负载开发效率不高。许多刚涉足机器学习应用的企业,对底层算力和基于硬件的优化缺乏清晰的认知,尚未意识到加速计算给企业开发效率带来的价值。
▲企业采用加速方案后的效果
要在应用机器学习时绕开这些瓶颈,选择合适的数据科学平台则至为关键。
二、数据科学平台选型:门槛低,速度快
IDC在白皮书中,就平台选择的考量因素给出许多具体可行的建议。
例如使用机器学习平台开发模型时,应与企业实际业务需求充分匹配。
IDC发现,大部分企业已采用加速方案,其中采用GPU加速的居多,占比达50%。
▲企业采用机器学习平台时使用到的加速方案情况
其中,英伟达在2018年10月推出RAPIDS开源GPU加速平台正得到越来越多企业的应用。