作為一家佇立中關村近20年的IT企業,漢王科技正在不斷尋找新的技術市場,以期商業上的創新突破,而文檔大數據業務讓漢王在人工智能的道路上長驅直入該領域的深度難點-自然語言處理技術的開發。從某種程度來說,這有可能是漢王進行商業突破的重要題材。
淵源:漢王科技,從OCR到自然語言理解
因OCR技術優勢,漢王接到多個國家級單位的文檔數字化項目,在具體工作中又將技術延伸到自然語言理解領域,可以說,漢王科技踏入了更為廣闊的數據化智能大市場。
漢王科技是業界最早致力于OCR識別技術研發和應用的公司之一,借助在該領域和數據加工平臺累積多年的技術優勢,漢王將OCR技術應用拓展至國內多個行業,其中一大重要的應用就是文檔電子化。2013年,北京漢王數字科技有限公司成立,作為漢王科技的子公司,漢王數字在該領域的觸角已延伸至多個國家級項目。其中不乏針對各級圖書館傳統近現代圖書進行掃描、圖像處理的數字化工程,而對某圖書館藏明清時期的家譜類文獻進行數字化加工的項目作為漢王文檔數字化的一個特殊案例尤其引人關注,由于古籍對識別系統以及操作方法要求極高,且古籍中含有標注、欄線、大量形態各異的異體字,情況十分復雜。而對此類復雜項目的承接折射出漢王在該領域的專業程度。
除了服務國家級的圖書館、檔案館,漢王科技的數據化業務也在銀行、醫院、法院等行業廣泛鋪陳,幫助相關部門將紙質單據的信息轉化為電子文檔。也就是在這些具體項目的實施中,漢王開始意識到“文檔電子化”只是完成了知識、信息應用的一部分,形成的電子文本是非結構化數據。
漢王科技高級副總裁李志峰介紹:將紙質文檔變成電子化文檔,只是漢王步入文檔大數據的入口。如果把文檔大數據應用比作摩天大樓,文檔電子化只是其高聳入云的扎實地基,通過掃描將紙質文檔變成圖像,再通過OCR技術將圖像變成數字化文本,但這樣的電子文檔知識之間缺乏關聯,被電腦檢索也只是對比相同字符搜集信息,對語義沒有理解,還是需要閱讀者進行人工甄別,根據自己的需求找尋所需信息。要將海量的電子文檔“智慧化”,就必須將文字信息形成結構化數據,只有形成結構化數據,信息和知識之間形成關聯,才能為大數據應用服務。
將文檔的非結構化數據進行結構化處理,轉化為技術術語,就要用到“自然語言理解”技術,俗稱“人機對話”,這是未來計算機科學領域與人工智能領域中的一個重要方向。可以暢想,未來你想了解某類知識點,通過對已結構化的信息數據進行檢索,查找瞬間,涉及到該類知識點的書籍便會全部呈現眼簾,相關內容也會被抽撿萃取。這種將文檔“知識化”的自然語言處理技術,在閱讀者眼前展現的不僅僅是一本一本的書,而是與之相關的知識浩渺的書庫和智能化的知識分揀工具。
布局:攻堅人工智能難中之難-中文自然語言處理
為此,漢王科技融合武漢大學的研發團隊聯合成立了武漢漢王數據技術有限公司,專門研究及開發“自然語言理解”課題方面的技術及產品。
自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題。從語言識別,到語義識別,從而真正做到可以交互。業界普遍認為,自然語言處理是人工智能中最難的部分,也是決定AI是否“智能”的關鍵因素。
目前在這一領域從事相關技術研發工作的主角為國際巨頭谷歌。目前谷歌正在開發一套神經網絡,開發代號是神經官能癥(neurosis),而這套智慧網絡的核心就是讓機器具有強大的學習能力,理解人類幾千年積累下來的自然語言信息,幫助人類隨時調用和理解這些信息,進行快速學習,以適應知識大爆炸的時代來臨。
而對于博大精深的中文,是以“字”為單位,一個中文文本或一個漢字(含標點符號等)串可能有多個含義,相對于天然分詞的英文,中文處理的難度有所提高,是自然語言理解中的主要困難和障礙。漢王利用其中文文字識別技術優勢,布局自然語言理解技術研發與突破,在未來將幫助更多的相關工作者或機構將平面的書本變成立體化的知識書庫。
從大的技術發展來看,現在無論是IT技術業、互聯網業,“自然語言理解”都是最尖端的研究方向。武漢漢王數據的“自然語言理解工具化”發展方向,已經成為最尖端的IT技術研究工作。
展望:基于NLP的文檔大數據,讓AI真正“智能”
2016年,漢王科技不僅成立了武漢漢王數據技術有限公司,還成功收購了北京影研創新科技發展有限公司,影研科技業務范圍涵蓋文檔信息化應用及內容管理解決方案,目前在醫療和法院市場具有競爭優勢,將技術、資金注入影研科技,顯而易見,漢王完成了醫療和法院文檔大數據市場的進入。
隨著漢王數字、武漢漢王數據、影研科技的發展,漢王科技在文檔數據化領域的布局將進一步延伸,通過承擔國家級、各行業項目,漢王進行文檔“大數據化”研發工作,并同步建立起自己的文檔大數據庫,而未來要做的,則是在大數據基礎上開發各種新的應用,以探索文檔數據化更廣闊的應用前景。
這種通過自然語言處理(NLP)而“結構化的文檔大數據”會給整個社會帶來從生活到思維上革命性的變化:未來,法院法律文檔大數據平臺可以為律師等法律工作者提供海量的同類案例參考,使其能更方便地借鑒歷史判案情況,也可以幫助普通人查閱理解自己在生活中遇到的各種相關法律問題;而挖掘健康領域數字化文檔資源價值,也將對醫療市場產生顛覆性的影響,未來,醫學界人士可透過院內、院際的互通數據,輔以病患本身的健康信息與過往病歷,迅速做出較以往精確許多的診斷,加速推動包括疾病診斷與預測、臨床實驗數據的分析與處理等諸多應用。
全球知名咨詢公司麥肯錫稱:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”當全社會聚焦互聯網外賣市場通過大數據重組餐飲市場的今天,漢王科技的商業價值是否也值得我們更加理性地去探尋?
(新聞稿 2017-09-07)