2019,注定是一个特殊的年份。这一年,我们从“Kesci科赛”正式升级到了“Heywhale和鲸",进一步明确了“数据科学协同平台”的定位,剔除了非核心业务。也恰是这一年,我们能够很明显地感觉到,“数据科学平台”这个企业服务的新品类,开始获得越来越多的关注。
相比常见的企业管理软件、专业工具软件,如CRM、HCM、OA等,数据科学平台有着很高的认知门槛与使用门槛,过去只有专业的科研人员与数据分析师,才是这类软件的目标使用人群。
在中国,专业的数据科学平台厂商仍不多见,加上BATH四大云厂商旗下的产品线,不到10家。而在北美的企业服务市场中,2019年,最大规模的并购——Tableau,表现最好的二级市场公司之一——Alteryx,最大金额的一级市场融资金额之——Databricks,都出现在了这个细分市场中。
市场爆发的背后,是云计算、数据中台、开源软件三个结构性的技术趋势,以及数字化转型的管理趋势,在“数据科学平台”这个品类发生了汇合。一时间,几乎所有的主流企业、政府部门、科研机构,都开始搭建数据分析与数据科学职能,采购数据科学平台的产品与技术服务。
对于大部分组织而言,真正的困难不是没有数据,而是数据太多、太乱。有数据,但没有洞察,谈不上实际业务价值。数据科学平台的定位,就是构建从“有数据”跨越到“有智能”的桥梁,将数据加工成模型、图表、报表、应用程序等,在辅助决策与自动决策的应用场景中真正发挥作用。
数据科学平台,作为用云量最高的场景之一,也成为了巨头角力的战场。北美的四大云厂商,AWS、 Azure、 Google Cloud与IBM,以及中国的三大云厂商,阿里云、华为云和腾讯云,都进行了数据科学平台产品布局,以期打通“大算力+大数据=大价值”的公式。明年,甚至今后的五到十年,基本上都会围绕着这个角度展开争夺。
和鲸要做的是以人为中心的“数据科学平台”
对于数据价值的管理与利用,目前有两种主流思路,一种是以数据为中心,聚焦于数据治理和数据仓库;一种是以场景为中心,聚焦于数据中台和算法设计。而和鲸科技探索的是第三条道路,也是一条少有人走的路:以人为中心,以团队协同为中心。
和鲸科技的公司使命是“Connect People with Data”,这里的People,既包括了数据工程师、数据分析师、数据科学家这样的专业数据人才,更有决策者、建议者、执行者这样使用数据的业务人才。
从数据到智能,再到价值的打通,不存在一劳永逸的算法或模式,这个过程需要专业的数据人才与业务人才的高频互动、高效协同,通过数据洞察的成果、数据模型的打磨,最终才能构建起数据智能的飞轮。
和鲸科技相信,数据智能的公式应该是:(数据+算力)×(人才+协同)= 价值。
创业至今已经四年,我们一直聚焦于一个问题:如何实现数据人才与业务人才之间的高效协同。
通过调研,我们发现绝大多数专业数据分析师和数据科学家,长期以来的工作和协同效率都比较低下。而工具链条的打通,可以实现数据团队50%以上的效率提升。
因为数据处理的工具链条上,有着数百种数据建模算法,几十种数据格式、数据库协议,十几种常用统计软件,语言不统一、环境不统一、数据不统一,这让数据人才的工作中存在着大量的低水平重复劳动。
要打通繁杂的工具链条,需要找到链条上的最大公约数,基于用户最多、体验最好、功能最强的开源软件,包括TensorFlow、ggplot2、scikit-learn、Jupyter等等,用云原生的技术范式,与消费互联网的用户体验,实现工具链条的统一与融合,实现对传统的统计分析软件(如MATLAB、SAS)的替代和升级。
另一方面,数据工作者的所有工作成果,都是为了服务于业务问题,否则就是空中楼阁。对于数据分析、数据建模的过程,业务人员的参与度仍然很低,这极大限制了数据资源产生的业务价值。
和鲸赋能业务人才的方式,是打通协作链条,让业务人才能够看到、参与数据工作的全流程、全生命周期。在数据加工的过程中,工作成果在不同阶段如何流转、分享、交互、整合,从一个黑箱,变成了一个透明、有序的流水线,让企业的每一个人参与到数据分析、数据决策、数据建模工作中,让数据的价值,从做加法变成做乘法。
历时三年多的产品迭代,我们的核心产品K-Lab,具备了出色的用户体验和产品口碑,赢得了包括了清华、南开、同济、协和医学院、中国电信、中国银联、中电科等在内的,国内最优秀的一批机构客户的信任。
举一个刚刚结束的例子,以方便我们从实际场景来理解“数据科学协同平台”的价值。数据科学的发展,使得医疗科研在研究方法、运作方式、传播交流等方面发生了深刻变革,能够熟练掌握大数据技术的医生,其科研成果也普遍有着更高的行业影响力。自2016年起,解放军总医院和MIT每年都会联合举办一次Datathon活动,致力于探索开放式科研和跨学科合作模式,推动医疗数据的实践应用落地。
Datathon的形式,通常是一种短期、高强度的小组竞赛,参赛者包括临床专家、数据科学家、统计学家、工程师和计算生物学家等知识背景和技术不同但互补的专业人士。这样一个参与者来自全球的“医-理-工”多学科专家的大数据创新活动,就遇到了上述数据人才与业务人才之间的协同问题。
这次的“2019PLAGH-MIT医疗大数据Datathon”,和鲸是技术支持方。Datathon的数据实操环节和活动全程,都是在我们的“数据科学协同平台”K-Lab所提供的AWS云计算环境中进行,不需要基站等大型实体设备,任意电脑只需上网打开浏览器即可使用,选手无需加载即可直接访问K-Lab中已经配置好的数据库,可以支持在场的几百名选手同时在线登陆平台,并进行流畅的在线数据分析。
由临床医师、算法工程师、医疗大数据工程师组成的跨领域团队,通过datathon这样一个物理意义上的平台和K-Lab这样一个虚拟平台,进行紧密高效地协作,合力解决临床医生面临的众多问题和未满足的医疗需求。这在以前,是很难想象的。