對于互聯網產品來說,技術往往是突破產品發展局限的關鍵要素。在語音搜索領域,隨著使用場景的增加和語音技術的發展,用戶比預期更快地接受并習慣了使用語音搜索功能。一個小小的麥克風按鈕,解放了雙手,讓人們在戶外場景下可以更便捷地進行搜索操作。近期,作為以技術實力著稱的搜狗在技術方面再發力,上線了LSTM模型,進一步提升了語音識別正確率,希望繼續通過技術發展,推動產品升級、為用戶提供更好的語音搜索體驗。
(搜狗語音搜索頁面截圖)
語音搜索的效果,主要取決于語音識別和搜索效果兩個方面。搜狗語音搜索功能以搜狗搜索和搜狗輸入法兩大產品數億用戶的海量數據為基礎,在語音識別和搜索效果兩個決定性因素上皆具有行業領先優勢。搜狗深耕搜索技術十幾年,其搜索效果有目共睹,自然不必多說。而在語音識別方面,搜狗語音搜索作為國內最早上線DNN技術的公司之一,擁有業內頂尖的深度學習技術,也就是說,它擁有一顆聰明的、學習能力極強的大腦。而本次上線LSTM(Long-Short Term Memory)模型后,更加強了其學習能力,尤其針對用戶在使用“語句”語音搜索時的效果有極大提升。
LSTM即時間遞歸神經網絡,也被稱長短時記憶模型,可以讓機器根據記憶對上下文語義進行判斷。在LSTM模型下,通過訓練,可以讓詞句輸入時更加準確,讓機器更好地理解用戶在詞句輸入時的“意圖”,給出最準確的輸入。用戶在進行搜索時,前后文的語義是連續的,字與字之間、詞與詞之間都是有一定關系的,因此,機器識別語音時,不能只是每個字進行獨立識別,還需要考慮到這種關系。尤其現今,用戶在使用語音搜索時往往直接說一句話而非一個詞,其對語音識別的要求就更高。引入LSTM模型后,正可以解決這個問題,有效提升語句輸入時的正確率。
同時,在良好的學習能力之外,搜狗語音識別還是最“努力”的。搜狗輸入法和搜狗搜索超過5億的用戶每天提供大量的訓練素材,在這個大腦中注入大量的知識,使它擁有極強的辨識能力。僅搜狗輸入法一個產品,每天接受的語音輸入請求量就超過1億次。幾個產品每天數億的訪問請求,使得搜狗語音搜索技術平臺成為全國最大的語音識別服務平臺。以此為基礎,搜狗語音搜索的識別技術經過“刻苦”學習,擁有了更強的技術實力。據某評測報告顯示,搜狗語音搜索的識別準確率高達97%,高于行業平均水平,且此效果還在持續提升中。
除此之外,搜狗語音搜索洞察到用戶在使用語音搜索功能時的特點,進行了相應的優化對策。例如,考慮到在戶外使用語音搜索功能時,往往伴隨著較大的噪聲、雜音的現象,搜狗語音搜索在語音識別時進行了良好的“噪聲去除”,保障了準確的語音識別。另外,針對中國各地區口音不同而導致語音識別有誤的問題,搜狗語音搜索也進行了相關研究,在口音等方面有較好的魯棒性(即抗變換性),讓機器更好地聽懂人的語言。
(搜狗語音搜索頁面截圖)
語音搜索的使用場景廣泛,尤其是在移動場景下可為用戶提供極大便利。例如,跟朋友在路上想要尋找一家餐廳吃飯,直接在搜狗語音搜索上說出“附近的餐廳”,即可根據地理位置給出備選項和聯系方式、位置、人均價格等信息。當然,在搜狗語音識別技術如此強大的今天,已經完全不必擔心出現輸入錯誤的情況。用戶普遍反映,一旦開始使用語音搜索,往往就會越來越習慣使用語音代替直接輸入文字。
搜狗語音搜索技術本次上線LSTM模型,讓機器更好地“懂得”用戶想要輸入的語言,不僅可以讓用戶更多使用語音搜索功能,更可以在人機交互的過程中讓用戶更“信賴”機器,促進整個行業的發展。相信專注于技術的發展的產品為大家帶來便利的同時,也必將受到用戶積極的回饋。
(新聞稿 2016-03-24)