生命科學是當今世界上最熱門的學科之一。隨著高通量測序技術的迅猛發展,科學界也開始越來越多地應用高通量測序技術來解決生物學問題。比如,用從頭測序(de novo sequencing)獲得該物種的參考序列,為后續研究和分子育種奠定基礎;對有參考序列的物種,進行全基因組重測序(whole genome resequencing),在全基因組水平上掃描并檢測突變位點,發現個體差異的分子基礎。在轉錄組水平上進行全轉錄組測序(whole transcriptome resequencing),從而開展差異表達基因分析、可變剪接、編碼序列單核苷酸多態性(cSNP)等研究;或者進行小分子RNA測序(small RNA sequencing),通過分離特定大小的RNA分子進行測序,從而發現新的microRNA分子。在轉錄組水平上,與染色質免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技術相結合,從而檢測出與特定轉錄因子結合的DNA區域和基因組上的甲基化位點。目前,高通量測序也開始廣泛應用于尋找疾病的候選基因上。
與sanger測序相比,高通量測序的顯著特點就是數據產出量增大,隨之而來的統計學信息增多。曾有人用“找針”來形容兩代測序的區別,sanger測序是在黑暗的環境中找針,高通量測序是把燈點亮后找針。高通量測序的大量數據輸出及復雜的統計學信息,就是照亮黑暗的明燈。那么,我們就先來了解一下高通量測序的基本原理和數據分析的基本流程。
現在市場上占優勢的高通量測序方法是Solexa法。它是一種基于邊合成邊測序技術(Sequencing-By-Synthesis,SBS)的新型測序方法。通過利用單分子陣列實現在小型芯片(FlowCell)上進行橋式PCR反應。由于新的可逆阻斷技術可以實現每次只合成一個堿基,并標記熒光基團,再利用相應的激光激發熒光基團,捕獲激發光,從而讀取堿基信息。
![百邁客云: 以云治云用“百邁客云”撥開生命疑云](http://big5.thethirdmedia.com/g2b.aspx/www.thethirdmedia.com/null.gif)
數據分析流程根據建庫的類型和研究目的的不同而各有差別,現以有參轉錄組信息分析流程為例來說明高通量數據分析的基本流程。
高通量測序數據以FASTQ格式來記錄所測的堿基讀段和質量分數。數據產出后,對樣品測序獲得的Reads進行統計,通過統計各樣品Reads長度、數量、堿基數以及GC含量等指標,評估數據量是否滿足信息分析要求。之后對原始數據進行質量評估,過濾低質量數據,應用各種序列比對軟件遮蔽數據中不屬于表達基因的贗象序列,去除鑲嵌克隆,最后獲得高質量的數據再進行后續組裝和分析。對于有參轉錄組數據分析,首先將所有測序讀段mapping到參考基因組上,與參考基因組進行比對分析,挑選出匹配好的所有讀段,同時進行讀段的基因定位,這些信息都將用于后續分析。
后續數據分析主要有基因的結構分析、表達分析和新基因分析。基因注釋是利用生物信息學方法,將未知基因序列在公共數據庫進行相似性搜索比對,通過與數據庫中已知基因序列的同源性比對,來推測未知基因的功能。
![百邁客云: 以云治云用“百邁客云”撥開生命疑云](http://big5.thethirdmedia.com/g2b.aspx/www.thethirdmedia.com/null.gif)
目前,除了個別實驗室具有高通量測序數據分析能力外,通常情況下,數據分析工作需要由專業的機構或公司來完成,這種形式存在幾個弊端:
1. 根據客戶的不同分析需求,收費標準不同。數據的基礎分析結果不能完全滿足科研需要,而個性化分析又需要支付高額的分析費用;
2. 分析結果和預判結果存在差異時,需要經過反復溝通,反復修改,才可能達到分析目的;
3. 數據的利用率低,一次分析后,所用數據基本處于擱置狀態,再利用的可能性低,大量的自測數據和公有數據無法再利用;
4. 項目完成周期較長,有可能會因分析公司業務量的變化而付出更多的等待時間。
現在,完成高通量數據分析工作,我們有了第三種選擇----百邁客云。
百邁客云(BMKCloud)是一個基于基因大數據的挖掘、管理和科研協作的整合平臺。可以使不具備生物信息分析基礎的用戶,快速掌握獨立的生物信息分析能力,實現高通量數據的深度解讀。
百邁客云提供:11大生物信息分析平臺(重測序、外顯子、轉錄組、非編碼RNA等),基本分析+個性化分析,輕松實現原始數據到生物學問題準確解讀的轉化;158款數據分析工具,涵蓋數據處理,文件操作,序列比對,基因注釋和圖表制作等,滿足個性化數據分析需求。
百邁客云不僅僅是一個數據分析平臺,更是一個挖掘研究思路的平臺。客戶通過在數據模塊中檢索跟自己研究相關的公共數據,然后通過分析平臺進行數據的挖掘和解讀,即可從中提煉科研思路,站在科學研究的前沿。
2016年3月,作為BMKCloud公共數據庫項目的一部分,動物、植物、微生物、參考基因組、疾病和宏基因組高通量測序數據庫正式上線。百邁客云的合作伙伴現在可以在BMKCloud上免費訪問六大數據庫了。2016年4月1日,伴隨著BMKCloud的全新改版,數據庫的公共數據可以直接導入用戶目錄“我的數據”中,利用BMKCloud上的分析平臺進行各項基礎分析和個性化分析,這極大加速了利用公共數據進行研究的步伐。 更加令人期待的是,腫瘤和腫瘤細胞系高通量測序數據庫也在緊鑼密鼓地籌劃中,不久之后也會在BMKCloud云平臺上與廣大用戶見面。BMKCloud公共數據庫項目建立的目的也是讓科研工作者更高效、更快速的利用公共數據,提高公共數據的利用效率。使大數據的挖掘不僅僅局限于癌癥的研究,能夠在動物、植物、微生物等研究中都得到很好的利用。科研工作者可以根據物種、類型、研究性狀、研究結果、測序方法等設置快速檢索感興趣的數據,所有數據均可一鍵導入我的數據中保存。然后利用百邁客提供的11大數據分析平臺和158款工具進行數據的深度挖掘,高效、快速的挖掘基因大數據。
百邁客云是國內第一家正式商用的生物云平臺,從2014年5月開始開放試用到2015年10月份正式商用。對于廣大的科研用戶而言,百邁客生物云是一個完整的交鑰匙(Turn-Key)解決方案,用戶只需要開通云平臺賬號,就有了屬于自己的生物信息分析平臺,以云治云,用“百邁客云”撥開生命疑云,“百邁客云”已經成為進行基因大數據的分析的最佳選擇。
![百邁客云: 以云治云用“百邁客云”撥開生命疑云](http://big5.thethirdmedia.com/g2b.aspx/www.thethirdmedia.com/null.gif)
(新聞稿 2016-04-12)