近日,東芝開發出了可高速對照大數據、大規模媒體數據注1的數據處理技術。此技術以高維矢量注2表現人物的面部、銷售數據等,通過預先將類似的矢量群索引化處理,可實現高速對照。利用此技術從1000萬張人物的面部圖像數據中提取指定人物的實驗注3中,僅8.31毫秒(1毫秒=1/1000秒)即可完成處理。比傳統的處理速度高出約50倍注4。
近年來,大數據的分析、活用技術不斷用于機械學習或機器故障預測等領域,大幅提高了故障的預測精度,給人們的生活帶來諸多便利的同時,分析的數據量也比人們預想的更快實現了大容量化、大規模化,尋求計算處理的高速化需求日益凸顯。
東芝開發的高速對照技術,結合了“矢量符號技術”(以盡量維持矢量間的距離的狀態進行壓縮)、“矢量索引技術”(不計算矢量間的距離而是預先索引化處理距離比較近的矢量群)、“管道搜索技術”(將粗略搜索和詳細搜索進行階段性組合)這3項技術,從而實現了計算處理的高性能化、高速化。其中,“矢量索引技術”是東芝最先開發的技術,擺脫了逐一對照咨詢數據的矢量,而是對照已經過索引化處理的類似的矢量群,使得處理速度大幅提高。
東芝以模式挖掘注5、媒體識別的強化注6、大數據分析注7三個領域為中心,將此技術向解決方案服務領域推廣應用。例如,可通過在大范圍內設置的監控攝像頭的影像瞬時發現指定人物,可使用機場等的水域監控高速對照國際通緝犯的人臉照片列表注8。
今后,東芝還將把此技術應用于深度學習,擴大與提高人工智能等相關的應用領域,為企業創造全新的價值。
此外,東芝已將此技術與向外擴展型數據庫“GridDB®”組合,建立了可高速處理大數據、大規模媒體數據的世界首個適用高維矢量對照的數據庫,計劃將于2016年制作成產品。
注1:例如,監控影像、廣播節目檔案、客戶服務中心儲存的語音記錄、Web文本等大規模媒體數據。
注2:并非二維(平面)或三維(空間)的矢量,而是擁有數百~數萬等維數的矢量。
注3:使用拍攝的5800人的面部共1000萬張圖像,以98%或以上的面部識別精度為限制條件進行實施。
注4:依據東芝獨立調查獲得的速度比較值。
注5:模式挖掘(類似模式搜索)
可對照監控攝像頭等的影像的広域監控(追蹤需要監控的對象人員等)
配置場所可以是車站、機場、高速道路等的閘口(驗票)、主題公園、娛樂場等的各監控點、從車站到運動場(音樂會、體育)的移動路線監控、ATM、接待窗口、售票機等。
注6:媒體識別的強化
國際通緝犯的檢查(在機場等場所的監控強化等)
注7:大數據分析
對學習和預測自動進行數據分析云服務。只將銷售數據、機械信號數據等需要分析的數據上傳至服務器,無需另行配置分析管理等人員,可自動獲得分析結果。
注8:將1千萬人的國際通緝犯的人臉照片列表和通過安全門的人物進行對照,使用其它公司的類似技術需要約20秒,使用本技術則僅需約0.68秒便可進行對照(依據東芝與系統整體處理時間相關的理論估計值)。
東芝在中國
東芝是全球領先的多元化廠商,自1875年創立以來,推出了許多世界首創的商品和服務。近年來,東芝不斷加強優勢產業,推動能源、社會基礎設施、半導體存儲三大業務領域的發展,東芝自1972年進入中國市場以來,利用百余年所積累的經驗及技術,不斷地為市場推出了能夠滿足廣大客戶需求的新產品和服務。未來,東芝將繼續通過企業服務來間接改善人類生活,提供更加智能化、便捷化的產品和服務,以實現安心、安全、舒適的社會為目標。東芝將繼續積極企業社會責任,在中國各地開展公益活動,為社會的和諧發展貢獻力量。
(新聞稿 2016-06-14)