隨著互聯網的日益普及,安徽某大學科技園的各類信息和服務需求在很大程度上已經可以通過互聯網數據的采集分析來完成。根據CNNIC今年的最新統計,中國現已有網民4.85億,各類站點域名130余萬個,據市場研究機構eMarketer估計,2013年中國網民將增會達到8.4億人,互聯網已經成為匯聚各類企事業組織動態和社情民意的最大平臺。在國外,甚至包括CIA這樣的情報機構已有70%的情報來源于互聯網上的開放數據分析,但面對網上海量信息,單純依靠人工進行處理已不可能,引入智能化的軟件工具勢在必行。
另一方面,云計算作為一種新興的共享基礎架構的方法,物理形態通常為大型的服務器集群,包括計算服務器、存儲服務器、寬帶資源等,它可以將大的系統池連接在一起以提供各種IT服務,并由軟件實現自動管理,無需人為參與,用戶在享用服務時猶如打開水龍頭接水一樣方便簡潔的享受信息服務,而不必關心后臺的技術有多復雜。由于云計算具有普適、方便、可用性強等一系列的優勢,正在受到越來越多的關注,并呈現出廣闊的市場前景。作為服務上百家企業的園區,通過云服務的方式為上百家在孵企業提供信息服務支持便成了一種必然的選擇。
為了滿足園區在招投標,行業資訊,競爭情報,最新政策等方面的信息需求,寶德設計并實現了情報云服務平臺,初期要達到的技術指標有:
1.50,000以上重點網站(更新頻率在5分鐘以內)的采集和檢索,普通網站支持在400,000以上,支持媒體包括新聞,論壇,博客,微博,圖片和視頻等。其中網頁索引量不低于2億(不含微博)。
2. 除了支持存儲靜態網頁快照文件外,還應支持新聞和論壇中出現的圖片存儲和部分視頻的存儲,其中靜態html文件存儲量不低于2億,圖片存儲量不低于1億。
3 在10,000個并發用戶的情況下,單次查詢數據庫響應時間小于0.1s,單次索引查詢響應時間小于0.2s。
為實現上述技術指標,搭建云計算數據計算中心,實現海量信息的采集,存儲,分析和檢索。該數據中心是云服務平臺運行的軟硬件環境,數據中心的建設滿足系統運行的基本要求。根據平臺的業務和數據計算中心建設的一般規律,寶德從云設備選型特制定本方案。
一、 業務需求分析
科技園互聯網情報采集與智能分析系統架構
1.1 情報管理和規劃
根據該大學科技園的實際情況,需要系統采用靈活的情報分類體系定義方式,以方便科技園靈活定義情報需求。為此,需要預先規劃欲收集情報的行業,欲采集的主題。系統能根據園區訴求會生產網站采集頻道,并確定信息采集源。
1.2 信息采集
由于園區采集的信息涉及面廣,因而需要系統支持多種信息源的采集,除了包括論壇,博客,新聞,政府門戶網站等靜態網頁信息,還應包含一些政策法規文件的電子文檔(如pdf,doc,xls,ppt等),培訓用視頻和圖片文件等。需要系統能夠提供異構信息整合工具,將非結構化信息結構化,轉換為統一的數據格式進行存儲,對外能提供統一的查詢和統計接口。
1.3 信息自動分類
大學科技園需加工和處理的信息類型多樣,包括政策法規信息,競爭對手信息,園區內部信息,輿情口碑信息,創業培訓資源,如何對這些資源進行分類管理,有序使用,是一個迫切需要解決的問題,為此平臺應集成信息自動分類功能,能將自動歸類后,形成不同頻道,便于園區進行查詢和歸檔。除此之外,系統還應該提供分類規則定義工具和自動訓練器,用戶可以自定義分類主題和分類規則,進行靈活分類;系統還集成分類訓練器功能,用戶指定類別和訓練樣本后,自動生成訓練模型進行分類預測。
1.4 自動排重
互聯網存在大量重復信息,如果能對這些重復信息進行自動判定,那么為情報人員節約大量時間,系統排重除了能夠支持url的排重外,還能支持內容排重功能,能抽取文檔的特征詞,設定內容相似度閾值,來調整排重的召回率和準確率。
1.5 自動摘要
摘要是以提供文獻內容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內容的短文。如果計算機程序能根據文章的外在特征抽取能夠表達其中心意思的原文部分句子作為摘要,那么將會大大大幅情報人員的工作效率。系統能輸出反映文章大意的靜態摘要,基于用戶查詢輸出反映查詢意圖的動態摘要。
1.6 主題跟蹤
系統能夠根據用戶定義的主題進行相似主題的檢測,并形成專題聚焦,能夠自動發現新聞和帖子的源頭,記錄轉載順序,并跟蹤,預測主題未來的發展趨勢。
1.7 信息自動的發布
系統可以基于用戶設置的模板自動生成簡報,簡報支持多種媒體信息,包括圖片,表格,文字等。
通過手機客戶端或PC能瀏覽系統自動生成的網站頻道,查看競爭情報或輿情信息,對于危機輿情和敏感信息,系統能夠自動預警。
用戶也可以根據多種查詢條件,查詢感興趣的信息。
二,配置方案
根據業務的分析主要選定的云設備包括服務器,存儲設備,網絡設備等。服務器的類型定為機架式服務器。機架式服務器被安裝在標準的機柜中,占用的空間小,便于管理和維護。根據功能需要,需要配置以下幾種服務器。
信息采集服務器
為了保證信息采集的及時性,需要進行多線程并發下載,同時要進行下載調度,反垃圾等,對網絡帶寬,網卡和CPU處理速度要求較高。考慮到該機器需要根據數據規模進行水平擴展,故選擇成本較低,易擴展的PC 服務器。適合做下載服務器的機器PR1280R配置為:內存8G DDR3,CPU為至強E3 2.3Ghz 4核。網卡為千兆雙網卡,硬盤為500G。
存儲和分析服務器
主要用于構建分布式文件系統,實現對快照,圖片的分布式存取。對硬盤容量和磁盤讀取速度有要求。另外該集群也可以通過離線或在線分布式計算實現數據分析。根據業務情況,選擇易擴展,容量擴充相對便宜的PC服務器。 適合做存儲和分析服務器的機器PR1280R配置為:內存4G DDR3;CPU至強E3 2.3Ghz 4核;網卡選用千兆雙網卡。硬盤容量2T。該機器配置同采集服務器基本相同,但硬盤容量為2T。
數據庫服務器
主要用于存儲用戶設置信息,組信息,規則,使用記錄,站點和監控詞信息等。同時作為緩存服務器,緩存用戶頻繁訪問的信息。適合做數據庫服務器的服務器PR2310R配置為:內存16G DDR3,支持最大內存48G,CPU為Intel(R) Xeon(R) CPU E5 2.13GHz,網卡為千兆雙網卡,硬盤為500G SATA。
檢索服務器
用于存儲索引文件,對外提供數據快速檢索服務,對CPU,內存都有較高要求。適合做檢索服務器PR2310R的配置為:內存24G DDR3,支持最大內存48G,CPU為2*Intel(R) Xeon(R) CPU E5 2.13GHz,網卡為雙千兆網卡,硬盤為3T(3*1T)。
Web服務器
面向外部用戶,提供web服務,包括面向用戶的應用,包括信息門戶,簡報,查詢和預警等。還能為管理提供后臺管理的功能。適合做web服務器PR1310R的配置為:內存8G DDR3,支持最大內存48G,CPU為Intel(R) Xeon(R) CPU E5 2.13GHz,網卡為雙千兆網卡,硬盤為1T SATA。
(新聞稿 2013-01-18)