作为一家伫立中关村近20年的IT企业,汉王科技正在不断寻找新的技术市场,以期商业上的创新突破,而文档大数据业务让汉王在人工智能的道路上长驱直入该领域的深度难点-自然语言处理技术的开发。从某种程度来说,这有可能是汉王进行商业突破的重要题材。
渊源:汉王科技,从OCR到自然语言理解
因OCR技术优势,汉王接到多个国家级单位的文档数字化项目,在具体工作中又将技术延伸到自然语言理解领域,可以说,汉王科技踏入了更为广阔的数据化智能大市场。
汉王科技是业界最早致力于OCR识别技术研发和应用的公司之一,借助在该领域和数据加工平台累积多年的技术优势,汉王将OCR技术应用拓展至国内多个行业,其中一大重要的应用就是文档电子化。2013年,北京汉王数字科技有限公司成立,作为汉王科技的子公司,汉王数字在该领域的触角已延伸至多个国家级项目。其中不乏针对各级图书馆传统近现代图书进行扫描、图像处理的数字化工程,而对某图书馆藏明清时期的家谱类文献进行数字化加工的项目作为汉王文档数字化的一个特殊案例尤其引人关注,由于古籍对识别系统以及操作方法要求极高,且古籍中含有标注、栏线、大量形态各异的异体字,情况十分复杂。而对此类复杂项目的承接折射出汉王在该领域的专业程度。
除了服务国家级的图书馆、档案馆,汉王科技的数据化业务也在银行、医院、法院等行业广泛铺陈,帮助相关部门将纸质单据的信息转化为电子文档。也就是在这些具体项目的实施中,汉王开始意识到“文档电子化”只是完成了知识、信息应用的一部分,形成的电子文本是非结构化数据。
汉王科技高级副总裁李志峰介绍:将纸质文档变成电子化文档,只是汉王步入文档大数据的入口。如果把文档大数据应用比作摩天大楼,文档电子化只是其高耸入云的扎实地基,通过扫描将纸质文档变成图像,再通过OCR技术将图像变成数字化文本,但这样的电子文档知识之间缺乏关联,被电脑检索也只是对比相同字符搜集信息,对语义没有理解,还是需要阅读者进行人工甄别,根据自己的需求找寻所需信息。要将海量的电子文档“智慧化”,就必须将文字信息形成结构化数据,只有形成结构化数据,信息和知识之间形成关联,才能为大数据应用服务。
将文档的非结构化数据进行结构化处理,转化为技术术语,就要用到“自然语言理解”技术,俗称“人机对话”,这是未来计算机科学领域与人工智能领域中的一个重要方向。可以畅想,未来你想了解某类知识点,通过对已结构化的信息数据进行检索,查找瞬间,涉及到该类知识点的书籍便会全部呈现眼帘,相关内容也会被抽捡萃取。这种将文档“知识化”的自然语言处理技术,在阅读者眼前展现的不仅仅是一本一本的书,而是与之相关的知识浩渺的书库和智能化的知识分拣工具。
布局:攻坚人工智能难中之难-中文自然语言处理
为此,汉王科技融合武汉大学的研发团队联合成立了武汉汉王数据技术有限公司,专门研究及开发“自然语言理解”课题方面的技术及产品。
自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题。从语言识别,到语义识别,从而真正做到可以交互。业界普遍认为,自然语言处理是人工智能中最难的部分,也是决定AI是否“智能”的关键因素。
目前在这一领域从事相关技术研发工作的主角为国际巨头谷歌。目前谷歌正在开发一套神经网络,开发代号是神经官能症(neurosis),而这套智慧网络的核心就是让机器具有强大的学习能力,理解人类几千年积累下来的自然语言信息,帮助人类随时调用和理解这些信息,进行快速学习,以适应知识大爆炸的时代来临。
而对于博大精深的中文,是以“字”为单位,一个中文文本或一个汉字(含标点符号等)串可能有多个含义,相对于天然分词的英文,中文处理的难度有所提高,是自然语言理解中的主要困难和障碍。汉王利用其中文文字识别技术优势,布局自然语言理解技术研发与突破,在未来将帮助更多的相关工作者或机构将平面的书本变成立体化的知识书库。
从大的技术发展来看,现在无论是IT技术业、互联网业,“自然语言理解”都是最尖端的研究方向。武汉汉王数据的“自然语言理解工具化”发展方向,已经成为最尖端的IT技术研究工作。
展望:基于NLP的文档大数据,让AI真正“智能”
2016年,汉王科技不仅成立了武汉汉王数据技术有限公司,还成功收购了北京影研创新科技发展有限公司,影研科技业务范围涵盖文档信息化应用及内容管理解决方案,目前在医疗和法院市场具有竞争优势,将技术、资金注入影研科技,显而易见,汉王完成了医疗和法院文档大数据市场的进入。
随着汉王数字、武汉汉王数据、影研科技的发展,汉王科技在文档数据化领域的布局将进一步延伸,通过承担国家级、各行业项目,汉王进行文档“大数据化”研发工作,并同步建立起自己的文档大数据库,而未来要做的,则是在大数据基础上开发各种新的应用,以探索文档数据化更广阔的应用前景。
这种通过自然语言处理(NLP)而“结构化的文档大数据”会给整个社会带来从生活到思维上革命性的变化:未来,法院法律文档大数据平台可以为律师等法律工作者提供海量的同类案例参考,使其能更方便地借鉴历史判案情况,也可以帮助普通人查阅理解自己在生活中遇到的各种相关法律问题;而挖掘健康领域数字化文档资源价值,也将对医疗市场产生颠覆性的影响,未来,医学界人士可透过院内、院际的互通数据,辅以病患本身的健康信息与过往病历,迅速做出较以往精确许多的诊断,加速推动包括疾病诊断与预测、临床实验数据的分析与处理等诸多应用。