納米孔測序技術(shù)(又稱(chēng)第四代測序技術(shù))是最近幾年興起的新一代測序技術(shù)。目前測序長(cháng)度可以達到150kb。這項技術(shù)開(kāi)始于90年代,經(jīng)歷了三個(gè)主要的技術(shù)革新:
1、單分子DNA從納米孔通過(guò);
2、納米孔上的酶對于測序分子在單核苷酸精度的控制;
3、單核苷酸的測序精度控制。目前市場(chǎng)上廣泛接受的納米孔測序平臺是Oxford Nanopore Technologies(ONT)公司的MinION納米孔測序儀。它的特點(diǎn)是單分子測序,測序讀長(cháng)長(cháng)(超過(guò)150kb),測序速度快,測序數據實(shí)時(shí)監控,機器方便攜帶等。這篇綜述重點(diǎn)總結了MinION測序儀的技術(shù)特點(diǎn)和應用領(lǐng)域。
一、 MinION測序技術(shù)簡(jiǎn)介MinION納米孔測序儀的核心是一個(gè)有2,048個(gè)納米孔,分成512組,由專(zhuān)用集成電路控制的flow cell。測序原理見(jiàn)圖1a所示:首先,將雙分子DNA連接lead adaptor(藍色),hairpin adaptor(紅色)和trailing adaptor(棕色);測序開(kāi)始,lead adaptor帶領(lǐng)測序分子進(jìn)入由酶控制的納米孔,lead adaptor后是template read(即待測序的DNA分子)通過(guò)納米孔,hairpin adaptor的作用是DNA雙鏈測序的保證,然后complement read(待測序分子的互補鏈)通過(guò)納米孔,最后是trailing adaptor通過(guò)。
在上述測序方法中,template read和complement read依次通過(guò)納米孔,利用pairwise alignment,它們組合成2D read;而在另外一種測序方法中,不使用hairpin adaptor,只測序template read,最終形成1D read。后一種測序方法通量更高,但是測序準確性低于2D read。每個(gè)接頭序列(adaptor)通過(guò)納米孔引起的電流變化不同(圖1c),這種差別可以用來(lái)做堿基識別。
二、 MinION相對于其他NGS測序平臺的優(yōu)勢
1、堿基修飾的檢測納米孔測序技術(shù)可以檢測四種胞嘧啶(cytosine)堿基修飾,分別為5-methycytosine,5-h(huán)ydroxymethycytosine,5-formylcytosine和5-carboxylcytosine。檢測準確率為92%-98%。
2、實(shí)時(shí)測序監控對于臨床實(shí)踐,實(shí)時(shí)獲取和分析DNA/RNA序列是一件很重要的事情。對于傳統的NGS測序,做到這一點(diǎn)非常不易。但對于MinION,實(shí)現起來(lái)相對容易。這不僅是因為MinION體積小,易操作等,更是因為在測序過(guò)程中單分子穿過(guò)納米孔,其電流變化可以檢測并識別,這種設計允許用戶(hù)在測序過(guò)程中根據實(shí)時(shí)結果做出一些判斷。實(shí)時(shí)測序監控對于MinION針對特定目標序列測序有重要的應用(圖2):當DNA片段通過(guò)納米孔時(shí),如果電流變化呈現與目標序列一樣的趨勢,則通過(guò)納米孔。如果DNA片段與目標序列呈現不同的電流變化趨勢,則不能通過(guò)納米孔。通過(guò)這樣的方式,實(shí)現目標序列的富集,從而顯著(zhù)減少測序時(shí)間,對于在野外和即時(shí)診療有重要意義。
3、測得更長(cháng)的read用MinION測序儀,對于1D read可以獲得300kb長(cháng)的read;對于2D read可以獲得60kb長(cháng)的read。利用MinION測序儀產(chǎn)生的長(cháng)read,研究人員設法填充了人參考基因組Xq24號染色體一個(gè)長(cháng)50kb的gap。該區域存在多個(gè)CT47基因串聯(lián)拷貝,研究人員利用MinION的長(cháng)read判斷該區域極有可能存在8個(gè)CT47基因拷貝。
4、結構變異的檢測NGS短序列的特征使結構變異的檢測往往不準確。這個(gè)問(wèn)題在癌癥的檢測中尤其嚴重,這是因為癌癥組織中充斥各種結構變異。研究人員發(fā)現利用MinION測得的幾百個(gè)拷貝的長(cháng)read得到的結構變異結果比NGS平臺測得的上百萬(wàn)read得到的結果更可靠。
5、RNA表達分析對于RNA表達分析,NGS平臺測得的短序列帶來(lái)的問(wèn)題是序列需要進(jìn)行拼接,才能得到轉錄本。這給可變剪切研究帶來(lái)困擾。因為通常情況下NGS測序不能產(chǎn)生足夠的信息將不同形式的可變剪切區分開(kāi)來(lái)。而利用MinION測序儀產(chǎn)生的長(cháng)read,可以更好地解決這個(gè)問(wèn)題。研究人員利用果蠅的Dscam1基因為例,其存在18,612種可變剪切形式,利用MinION測序儀可以檢測到超過(guò)7,000種可變剪切形式,而這樣的結果利用NGS的短序列測序是不能夠獲得的。
6、生物信息學(xué)配套軟件的發(fā)展近些年來(lái),隨著(zhù)生物信息分析方法的發(fā)展,MinION測序reads成功比對參考基因組的比例已經(jīng)從66%提升至92%。文章下面對各種工具的適用場(chǎng)景進(jìn)行了分別介紹。
1、堿基識別工具M(jìn)etrichor是ONT公司推出的基于隱馬爾可夫模型進(jìn)行堿基識別的軟件。它的使用需要網(wǎng)絡(luò )連接。MinION注冊用戶(hù)需要獲得開(kāi)發(fā)者賬號才能獲得軟件的源代碼。2016年初,兩個(gè)實(shí)驗室分別開(kāi)發(fā)了Nanocall和DeepNano軟件。這兩個(gè)軟件都可以在本地運行,不需要網(wǎng)絡(luò )連接。Nanocall基于隱馬爾可夫模型,可對1D read在本地進(jìn)行堿基識別;DeepNano基于recurrent neural network framework,可以獲得比隱馬爾可夫模型更準確的堿基識別。
2、序列比對工具傳統的NGS序列比對軟件不能滿(mǎn)足MinION序列比對的需求。這是因為MinION測序數據錯誤率相對高且序列長(cháng),即使調整參數也不能取得好的效果。在這種情況下,適合MinION測序數據的比對軟件應運而生。
MarginAlign是通過(guò)更好地估計MinION測序reads測序錯誤來(lái)源從而提高與參考基因組的比對效率。通過(guò)評估檢測到的變異,發(fā)現其顯著(zhù)提高了比對的準確性。由于MarginAlign是基于LAST或BWA mem的比對結果進(jìn)行優(yōu)化,結果的最終準確性依賴(lài)最初的比對結果。GraphMap是另一個(gè)用于MinION測序數據比對的軟件。它利用的是一種啟發(fā)式(heuristics)方法,對高錯誤率reads和長(cháng)reads進(jìn)行了優(yōu)化。一項研究表明GraphMap比對的靈敏性可與BLAST媲美,且它對reads測序錯誤率的估計與MarginAlign相當。
3、從頭組裝工具M(jìn)inION測序數據不適合利用NGS數據組裝的de Bruijn圖法進(jìn)行組裝,主要存在兩方面的原因。
一是de Bruijn圖法等方法依賴(lài)測序reads拆分的k-mer測序準確,而高錯誤率的MinION測序reads不能保證這一點(diǎn);
二是de Bruijn圖的結構不適用長(cháng)reads。MinION測序數據的長(cháng)reads更適合Sanger測序時(shí)期基于有overlap的共有(consensus)序列組裝的方法。需要的是在組裝前進(jìn)行測序reads的糾錯。第一個(gè)基于這種原理進(jìn)行組裝的研究組利用MinION數據組裝了一個(gè)完整的E. coli K-12 MG1655基因組,序列準確率達到99.5%。他們利用的流程稱(chēng)為nanocorrect,首先利用graph- based,greedy partial order aligner方法進(jìn)行糾錯,然后利用Celera Assembler將糾錯后的reads進(jìn)行組裝,最后利用nanopolish對組裝結果進(jìn)行進(jìn)一步提升。
4、單核苷酸變異檢測工具Reference allele bias是一種在變異檢測中傾向于少檢測出變異的現象。該現象在測序reads錯誤率高的情況下尤為嚴重。MarginAlign中的marginCaller模塊是研究機構開(kāi)發(fā)的適用于MinION測序數據的變異檢測軟件。MarginCaller利用maximum-likelihood參數估計和多條測序reads序列比對來(lái)檢測單核苷酸變異。當計算機模擬出測序錯誤為1%時(shí),測序深度在60X,marginCaller檢測出的SNV具有97%的準確率和完整度。另外一項研究中,研究者利用GraphMap方法,檢測人基因組的雜合變異,可以達到96%的準確率。利用計算機模擬的數據,GraphMap同樣可以高準確率,高完整度地檢測出結構變異。Nanopolish也可以用來(lái)檢測變異。它用的是event-level alignment算法。
在該方法中,從參考基因組序列開(kāi)始,依次評估參考基因組序列產(chǎn)生的電信號與測序reads的相似性進(jìn)而依次修飾參考基因組序列,生成一個(gè)consensus read。直到consensus read與測序read產(chǎn)生的電信號足夠相似,將consensus read與參考基因組序列比較,得到變異。該方法在埃博拉病毒的研究中有大約80%的準確性。PoreSeq采用與Nanopolish類(lèi)似的算法。它可以利用更低深度的測序數據獲得高準確率和高完整度的SNV檢測。在一項研究中,PoreSeq在16X測序深度下獲得99%準確率和完整度的SNV檢測,與marginAlign相比,它顯著(zhù)降低了測序深度。
5、共有序列的測序(consensus sequencing)方法MinION測序數據目前只有92%的準確性。在低深度測序的情況下,不能夠滿(mǎn)足類(lèi)似單體型(haplotype phasing)和人樣品的SNV檢測的要求。文章提到的解決問(wèn)題的方法是rolling circle amplication,它的原理是將一個(gè)片段進(jìn)行多次擴增,在一個(gè)DNA分子上生成多個(gè)拷貝,這樣最終獲得的共有序列測序結果的準確率可以達到97%。
三、MinION目前的應用領(lǐng)域
1、即時(shí)檢測傳染源NGS測序方法可以在醫院環(huán)境下進(jìn)行傳染源等病菌的檢測,而MinION測序方法提供的是一種全新的體驗。MinION在測序讀長(cháng),攜帶的方便性,檢測時(shí)長(cháng)方面具有NGS不可比的優(yōu)勢。文獻記載從樣品準備到發(fā)現致病菌只需要6小時(shí)時(shí)間,而從樣品放置機器到發(fā)現致病菌只需要4分鐘。文章列舉了截至目前用MinION測序儀涉及研究的物種及詳細描述了西非爆發(fā)埃博拉病毒時(shí),MinION測序方法在病毒檢測過(guò)程中起到的重要作用。
2、非整倍體檢測MinION可以在胎兒非整倍體產(chǎn)前檢測中發(fā)揮重要作用。利用NGS平臺,通常需要1-3周時(shí)間獲得結果。而利用MinION測序方法,文獻報道只需要4小時(shí)。
3、太空應用在太空飛行中,發(fā)掘細菌和病毒是很困難的事情。大部分研究是將樣品帶回地球進(jìn)行測序鑒定。目前,NASA準備利用MinION測序儀在國際空間站進(jìn)行病菌的實(shí)時(shí)測序。
四、展望
1、PromethION為了滿(mǎn)足研究人員對高通量測序的需求,ONT公司開(kāi)發(fā)了一個(gè)臺式納米孔測序儀—PromethION。PromethION有48個(gè)flow cell,可以單獨運行也可以并行。每個(gè)flow cell包括3,000個(gè)通道(channel),每天產(chǎn)生6Tb測序數據。
2、測序read準確性目前MinION測序儀的測序準確率在92%左右。對于類(lèi)似致病菌和可變剪切的發(fā)掘,這樣的測序準確率可以滿(mǎn)足需求。但是對于臨床檢測,通常read準確率需要達到99.99%。因此,文章提到ONT公司需要在測序相關(guān)的化學(xué)反應和堿基識別軟件方面進(jìn)行優(yōu)化。另外,文章提到MinION測序方法存在非隨機的測序錯誤。比如MinION不能很好處理長(cháng)于6個(gè)核苷酸的同聚物的測序,同時(shí)缺少堿基修飾檢測的內參訓練。如果這兩個(gè)問(wèn)題能夠得到解決,共有序列(consensus)測序的準確率可以達到大于99.99%。
3、測序read長(cháng)度目前MinION測序長(cháng)度達到150kb。在未來(lái)一段時(shí)間,可以期許其測序長(cháng)度可以得到更大提升。
4、RNA直接測序逆轉錄和PCR擴增會(huì )導致很多RNA自身信息的丟失,所以目前ONT公司和一些研究機構正在嘗試用納米孔技術(shù)進(jìn)行RNA直接測序。之前的研究已經(jīng)為此奠定了基礎,比如研究表明可以對tRNA進(jìn)行單通道和固態(tài)納米孔(solid-state nanopore)檢測,且納米孔可以檢測DNA和tRNA的堿基修飾。
5、單分子蛋白測序目前,質(zhì)譜(mass spectrometry)是做蛋白組分析較好的技術(shù),但是對于靈敏性,準確性和分辨率,目前的技術(shù)都存在局限性。2013年一項研究報道了酶介導的蛋白通過(guò)單通道納米孔。這項研究表明蛋白的序列特征可以被檢測。這些發(fā)現為蛋白質(zhì)納米孔測序奠定了很好的基礎。