“我想看爸爸去哪兒”,隨著輕聲訴說,百度語音助手自動打開視頻《爸爸去哪兒》的播放菜單,節目導航立即呈現在用戶眼前,用戶可以隨心所欲地選擇自己喜歡的節目;在互聯網中搜索資料時,尤其是一些文獻類的資料,經常會在搜索結果中看到關于該文獻中心內容的介紹,這就是我們常說的自動文摘;使用輸入法時,多個文字連續輸入,在前面兩個選項也能較為準確的顯示出我們需要的文字,無需手動選擇……這些情景的大家肯定都遇到過,但是你知道這些成果的展現是如何實現的嗎?百度一下,你就知道答案了。
度娘說,上述功能的實現有個共同點,就是它們均基于自然語言處理技術。自然語言處理,通俗地說,就是將我們人類的語言轉換成一種能夠被計算機理解的語言,它對實現人工智能有著重要意義。目前,在互聯網領域,自然語言處理被視為改善用戶體驗先行的基礎,雖說它處于基礎底層位置,但是九層之臺,起于累土,它的重要性不言而喻,從百度、騰訊、阿里巴巴等眾多企業對其的重視就可領略一二。
在提升自然語言處理技術的過程中,百度始終走在業界的前端,希望用先進的技術為網民帶來更智能的美好生活。自2011年百度推出開放研究計劃后,百度每年都會發布一個技術主題,圍繞技術主題接收來自學術界的解決方案,并擇優資助優秀的研究方案開展課題研究,同時接納老師派遣的學生到百度技術部門實習并開展研究工作,研究成果可以直接為百度解決現實技術問題或者做重大的前沿技術探索。
今年,百度自然語言處理部與哈爾濱工業大學攜手,共同進行了一項名為“人本計算平臺研究項目”,意在探索多個平臺間數據自動循環的價值。據了解,機器學習平臺、數據中心平臺、眾測平臺均為公司內已有的技術平臺。其中,機器學習平臺提供各類機器學習模型,實現模型訓練、測試、評估等功能;眾測平臺為眾測用戶提供眾測任務,實現數據標注;數據中心平臺實現數據的存儲管理與對外提供數據服務,但是三個平臺間無法互相融通。為實現三個平臺的無縫結合,百度現針對機構名稱識別優化這一項目,實現了三個平臺間數據的自動迭代。
聽起來很復雜的項目,在這些項目研究者的眼中卻很明確。據該項目的實習生,來自哈爾濱工業大學研究生二年級的學生姚佳介紹,“如果用戶在進行檢索時,輸入一個機構的名稱‘北京大學’,在搜索機構里是可以查到相關信息的,因為這是一個機器識別的機構名,但是,如果搜索的是簡稱‘北大’,就有可能無法查到想要的信息,因為計算機可能無法將‘北大’識別成一個機構名,我的工作首先是將這些query詞匯抽出,篩選過后交給眾測平臺進行用戶標注,再基于得出的結果進行優化,這樣就可以做到用戶在搜索相近的意思的機構詞時,都能搜到相應的結果。”
日前,該項目已經完全結束,項目成果令人驚喜。“我們在這個項目中完成了眾測平臺+數據中心+機器學習平臺的一體化打通建設,對于機構名稱識別效果有了質的提升:F值在query上提升32個百分點。”百度自然語言處理部萬偉,作為“人本計算平臺研究項目”百度方面的負責人,對此結果表示肯定。他說,“這個項目的初衷是嘗試性的探索三大平臺間數據自動化循環的流程,讓我們的工作更加簡潔有效,所以我們對兩位實習生——姚佳及和他來自同一個實驗室的張宇,有著明確的工作要求,他們在此期間的表現非常優秀,到達了我們的預期,這是校企合作間比較理想的模式,深化了百度與學術界在技術領域的合作。”
基于該項目的研究成果,百度在自然語言處理方面對機構名稱的識別技術得到大幅提升,萬偉表示,今后百度自然語言處理部對該研究成果將會繼續深化,例如在百度眾測平臺上,可以根據用戶的行為和標簽,為其推薦更適合他們的任務,從而讓用戶享受到更多的測試樂趣。
(新聞稿 2013-12-10)