丰满少妇性高潮喷水av,欧洲精品不卡1卡2卡三卡四卡

你去將你的基因組測序了嗎？世界上已有數(shù)百萬人去測過了，到2025年，這一數(shù)字可能會(huì)達(dá)到10億。

研究人員獲得的基因組數(shù)據(jù)越多，個(gè)人和公共健康的前景就越好。產(chǎn)前DNA測序已經(jīng)可以篩查出發(fā)育異常。過不了多久，患者將可以對(duì)他們的血液進(jìn)行測序，以發(fā)現(xiàn)任何可能標(biāo)志著某種傳染病的非人類DNA。未來，與癌癥打交道的人將能夠通過每天對(duì)來自多個(gè)組織的細(xì)胞的DNA和RNA進(jìn)行測序來跟蹤疾病的變化情況。

整個(gè)人群的DNA測序?qū)⑹沟梦覀兛梢詫?duì)整個(gè)社會(huì)的健康狀況有更全面的了解。英國Biobank雄心勃勃，其目標(biāo)是對(duì)50萬名志愿者的基因組進(jìn)行測序，并跟蹤研究數(shù)十年。目前，人群范圍的基因組研究通常被用來識(shí)別與特定疾病相關(guān)的突變。定期對(duì)空氣、土壤和水中的生物進(jìn)行測序?qū)⒂兄谧粉櫫餍胁?、食物病原體、毒素等等。

這樣的愿景的實(shí)現(xiàn)有賴于對(duì)超大量的數(shù)據(jù)的存儲(chǔ)和分析。通常情況下，DNA測序儀處理一個(gè)人的整個(gè)基因組就會(huì)產(chǎn)生數(shù)十至數(shù)百千兆字節(jié)的數(shù)據(jù)。數(shù)百萬人的基因組數(shù)據(jù)累加起來，所需要的存儲(chǔ)空間將達(dá)到數(shù)十艾字節(jié)。

而這僅僅是個(gè)開始。發(fā)現(xiàn)基因組數(shù)據(jù)有用的科學(xué)家、醫(yī)生和其他人不會(huì)僅對(duì)每個(gè)人進(jìn)行一次測序——對(duì)于同一個(gè)個(gè)體，他們會(huì)希望隨著時(shí)間的推移對(duì)多個(gè)組織中的多個(gè)細(xì)胞進(jìn)行重復(fù)測序。隨著測序速度的提高和成本的下降（現(xiàn)在個(gè)人基因組測序只需1000美元，而且價(jià)格正在快速下降），他們還希望對(duì)其他動(dòng)物、植物、微生物和整個(gè)生態(tài)系統(tǒng)的DNA進(jìn)行測序。而新應(yīng)用甚至新產(chǎn)業(yè)的出現(xiàn)將帶來更多測序。

雖然很難預(yù)測基因組數(shù)據(jù)的全部未來收益，但我們已經(jīng)看到了一個(gè)不可避免的挑戰(zhàn)：所需要的存儲(chǔ)空間幾乎是難以想象的大。目前，存儲(chǔ)基因組數(shù)據(jù)的費(fèi)用仍然只是實(shí)驗(yàn)室總體預(yù)算的一小部分。但是這種費(fèi)用正在急劇升高，幅度遠(yuǎn)遠(yuǎn)超過了存儲(chǔ)硬件價(jià)格的下降。在未來五年內(nèi)，存儲(chǔ)數(shù)十億人、動(dòng)物、植物和微生物的基因組的成本將輕松達(dá)到每年數(shù)十億美元。這些數(shù)據(jù)需要保存幾十年，甚至更長時(shí)間。

將數(shù)據(jù)壓縮顯然有助于解決其存儲(chǔ)問題。生物信息學(xué)專家已經(jīng)使用像gzip這樣的標(biāo)準(zhǔn)壓縮工具將文件大小縮小到了原來的1/20。一些研究人員還使用針對(duì)基因組數(shù)據(jù)的更專業(yè)的壓縮工具，但這些工具并沒有被廣泛采用。我們兩個(gè)人都在研究數(shù)據(jù)壓縮算法，我們認(rèn)為現(xiàn)在是時(shí)候提出一種效率更高、速度更快、更適合基因組數(shù)據(jù)獨(dú)特特性的新壓縮方案了。正如專用的視頻和音頻壓縮方案對(duì)于像YouTube和Netflix這樣的流媒體服務(wù)至關(guān)重要一樣，要從爆炸式增長的基因組數(shù)據(jù)中盡可能多地獲益，專門針對(duì)基因組數(shù)據(jù)的高效壓縮方案將是十分必要的。

圖片來源：Stephens ZD,Lee SY,Faghri F,Campbell RH,Zhai C,Efron MJ,et al.2015,PLoS Biol 13(7).

人類基因組測序的增長：自2001年人類基因組序列草圖首次發(fā)表以來，測序的人類基因組數(shù)量和測序能力的增長速度都有了顯著提高。2015年后的三條線代表三種可能的增長曲線。

在我們解釋如何更好地壓縮基因組數(shù)據(jù)之前，讓我們仔細(xì)研究一下數(shù)據(jù)本身?！盎蚪M”在這里指的是四種堿基核苷酸——腺嘌呤（adenine）、胞嘧啶（cytosine）、鳥嘌呤（guanine）和胸腺嘧啶（thymine）——的序列，它們分別由我們熟悉的DNA中的A、C、G、T四個(gè)字母表示。這些核苷酸出現(xiàn)在A-T和C-G堿基對(duì)組成的鏈中，人類基因組中的23對(duì)染色體都是由這兩種堿基對(duì)構(gòu)成的。大多數(shù)人類細(xì)胞中，這些染色體包含約60億個(gè)核苷酸，包括編碼基因、非編碼元件（如染色體末端的端粒）、調(diào)節(jié)元件和線粒體DNA。Illumina、Oxford Nanopore Technologies和Pacific Biosciences等公司生產(chǎn)的DNA測序儀器，能夠在數(shù)小時(shí)內(nèi)從一個(gè)人的DNA樣本中自動(dòng)完成對(duì)其基因組的測序。

這些商業(yè)化的DNA測序儀不會(huì)產(chǎn)生整個(gè)基因組長度的ACGT字符串，而是產(chǎn)生大量子串或“讀數(shù)”（reads）。這些讀數(shù)會(huì)部分重疊，需要序列組裝軟件基于它們重建出完整的基因組。一般來說，當(dāng)進(jìn)行整個(gè)基因組測序時(shí)，每個(gè)基因組片段長度不超過100個(gè)讀數(shù)。

根據(jù)所使用的測序技術(shù)，讀數(shù)的長度可能從大約100到100,000個(gè)堿基對(duì)變化，讀數(shù)的總數(shù)可能從數(shù)百萬到數(shù)百億不等。短讀數(shù)可以發(fā)現(xiàn)單個(gè)堿基對(duì)突變，而較長的讀數(shù)更適用于檢測復(fù)雜的變異，如數(shù)千個(gè)堿基對(duì)的刪除或插入。

DNA測序是一個(gè)嘈雜的過程，讀數(shù)中包含錯(cuò)誤是很常見的。因此，除了ACGT核苷酸字符串之外，每個(gè)讀數(shù)包含一個(gè)質(zhì)量分?jǐn)?shù)，表明測序儀對(duì)每個(gè)DNA核苷酸測序結(jié)果的信任度。測序儀將它們的質(zhì)量分?jǐn)?shù)表示為錯(cuò)誤概率的對(duì)數(shù)。它們使用的算法是專有的，但事后可以檢查。如果質(zhì)量得分為20（對(duì)應(yīng)于1％的錯(cuò)誤概率），用戶可以確認(rèn)在已知的DNA序列中約1％的堿基對(duì)是不正確的。使用這些文件的程序依賴質(zhì)量分?jǐn)?shù)來將測序錯(cuò)誤和突變區(qū)分開來。真正的突變會(huì)比測序錯(cuò)誤顯示出更高的平均質(zhì)量分?jǐn)?shù)，也就是說其錯(cuò)誤概率更低。

測序儀將字符串和質(zhì)量分?jǐn)?shù)以及一些其他元數(shù)據(jù)逐個(gè)讀數(shù)地粘在一起，形成所謂的FASTQ文件。一個(gè)完整基因組的FASTQ文件通常包含數(shù)十到數(shù)百千兆字節(jié)。

這些文件也非常冗余，這源于任何兩個(gè)人的基因組幾乎完全相同這個(gè)事實(shí)。平均而言，兩個(gè)人的基因組在每1,000個(gè)核苷酸中大約有一個(gè)核苷酸不同，通常這些基因差異是很有趣的。一些DNA測序針對(duì)特定的差異區(qū)域，例如，像23andMe這樣的DNA基因分型應(yīng)用程序只尋找特定的變異，而刑事調(diào)查中的DNA分析則去尋找特定標(biāo)記重復(fù)次數(shù)的變異。

但是，如果你不知道有趣的東西在哪里（比如當(dāng)你試圖診斷一種未知基因來源的疾病時(shí)），你就需要對(duì)整個(gè)基因組進(jìn)行測序，這就意味著你需要獲取更大量的測序數(shù)據(jù)。

測序數(shù)據(jù)的重復(fù)也來自于為清除錯(cuò)誤而多次讀取基因組的相同部分。有時(shí)，一個(gè)樣本中包含一個(gè)序列的多個(gè)變異，因此你想重復(fù)對(duì)其進(jìn)行測序以捕獲這些變異。比如說你正試圖檢測一個(gè)組織樣本中的一些癌細(xì)胞或一個(gè)孕婦的血液中的胎兒DNA痕跡，這可能就意味著要對(duì)每個(gè)DNA堿基對(duì)多次測序（通常超過100次）以區(qū)分罕見變異與更常見變異，以及它們與測序錯(cuò)誤的真正區(qū)別。

讀數(shù)和參考基因組：一個(gè)DNA“讀數(shù)”（頂部字符串）與人的參考基因組的一小部分（底部字符串）大致匹配。插入、刪除和替換（由于DNA測序過程中的突變或噪聲）導(dǎo)致不完美匹配。為了編碼一個(gè)讀數(shù)，我們可以聲明其在參考基因組中的起始位置并描述所有變異。

現(xiàn)在，你應(yīng)該更好地理解了為什么DNA測序會(huì)產(chǎn)生如此多的冗余數(shù)據(jù)。事實(shí)證明，這種冗余對(duì)于數(shù)據(jù)壓縮是有利的。對(duì)于相同的基因組數(shù)據(jù)塊，你可以只存儲(chǔ)一個(gè)副本，而不是存儲(chǔ)多個(gè)副本。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

冗余

冗余

+關(guān)注

關(guān)注
1

文章
112

瀏覽量
20301
基因

基因

+關(guān)注

關(guān)注
0

文章
95

瀏覽量
17244

原文標(biāo)題：面臨挑戰(zhàn)的基因組數(shù)據(jù)壓縮技術(shù)（上）

文章出處：【微信號(hào)：IEEE_China，微信公眾號(hào)：IEEE電氣電子工程師】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

Xilinx FPGA在基因組測序中的優(yōu)勢

PrecisionFDA平臺(tái)是基因組信息學(xué)社區(qū)和共享數(shù)據(jù)平臺(tái)，這是一個(gè)為研究人員準(zhǔn)備的開源、基于云的工具，它將為下一代測序診斷提供依據(jù)，并且為所有開發(fā)者提供統(tǒng)一的、可共享的在線基因組信

發(fā)表于 07-11 08:33 ?1964次閱讀

全基因組數(shù)據(jù)CNV分析簡介精選資料分享

除了利用aCGH和snp芯片來檢測CNV之外，也可以通過NGS數(shù)據(jù)來分析CNV, 比如全基因組和全外顯子測序。針對(duì)全基因組CNV的檢測，還針對(duì)開發(fā)了一種稱之為C...

發(fā)表于 07-29 08:24

全基因組測序的優(yōu)勢精選資料分享

全基因組測序的優(yōu)勢目前，隨著高通量測序技術(shù)快速發(fā)展、測序成本的進(jìn)一步降低以及組裝方法的不斷完善，全基因組

發(fā)表于 07-29 08:31

全基因組CNV分析的策略是什么？

全基因組CNV分析的策略是什么？

發(fā)表于 10-27 06:43

全基因組測序的優(yōu)勢是什么？

全基因組測序的優(yōu)勢是什么？

發(fā)表于 10-27 06:27

什么是基因組序列數(shù)據(jù)庫

什么是基因組序列數(shù)據(jù)庫 GSDB是基因組序列數(shù)據(jù)庫（Genome Sequence Data Base），由美國新墨西哥州Santa Fe的國家基

發(fā)表于 06-17 07:37 ?1491次閱讀

區(qū)塊鏈對(duì)基因組數(shù)據(jù)的保護(hù)

我相信，我是唯一有權(quán)擁有關(guān)于我的基因組信息的人，就像我有表達(dá)想法的權(quán)利，選擇工作或宗教的權(quán)利。

發(fā)表于 07-16 09:12 ?828次閱讀

FPGA能在實(shí)時(shí)基因組測序計(jì)算中大顯身手，大大縮短時(shí)間

目前，F(xiàn)PGA在實(shí)時(shí)基因組測序計(jì)算大顯身手，把測序時(shí)間從30小時(shí)縮短到26分鐘，之后基因組測序計(jì)算時(shí)間將會(huì)縮短到10分鐘，預(yù)計(jì)一個(gè)全序列

發(fā)表于 10-09 16:51 ?2060次閱讀

國產(chǎn)芯片助力全球首次實(shí)現(xiàn)手機(jī)個(gè)人全基因組測序分析

在手機(jī)上也能進(jìn)行全基因組測序分析？沒錯(cuò)！據(jù)麥姆斯咨詢報(bào)道，近日，生命大數(shù)據(jù)高峰論壇暨第四屆基因組云計(jì)算技術(shù)開發(fā)者峰會(huì)（GCTA 4），在貴州

發(fā)表于 05-30 14:54 ?3019次閱讀

國產(chǎn)芯片助力全球首次實(shí)現(xiàn)手機(jī)個(gè)人全基因組測序分析

在手機(jī)上也能進(jìn)行全基因組測序分析？沒錯(cuò)！近日，生命大數(shù)據(jù)高峰論壇暨第四屆基因組云計(jì)算技術(shù)開發(fā)者峰會(huì)（GCTA 4）在貴州貴陽新世界酒店隆重舉

發(fā)表于 06-05 15:08 ?3883次閱讀

華大發(fā)布高精度基因組標(biāo)準(zhǔn)及解決方案開啟基因組測序“全高清”時(shí)代

基因組測序“全高清”時(shí)代！

發(fā)表于 06-19 15:10 ?3367次閱讀

AI加速推動(dòng)醫(yī)療個(gè)體化轉(zhuǎn)型 基因組學(xué)將有望成為未來發(fā)展主流

自2003年首次對(duì)人類基因組進(jìn)行測序以來，整個(gè)基因組測序流程的成本就一直在下降，而且下降的速度遠(yuǎn)快于根據(jù)摩爾定律所預(yù)測的速度。從新生兒基因組

發(fā)表于 01-02 10:41 ?908次閱讀

微流控芯片技術(shù)在單細(xì)胞基因組學(xué)研究中的應(yīng)用

單細(xì)胞基因組學(xué)包括單細(xì)胞全基因組測序和以單細(xì)胞和微量細(xì)胞為材料的全基因組范圍內(nèi)的基因功能研究。功能基因組

發(fā)表于 03-03 13:04 ?2215次閱讀

人工智能如何改變基因組學(xué)？

人進(jìn)行測序，還是大規(guī)模人群的遺傳學(xué)研究，全基因組測序正在成為臨床工作流程和藥物研發(fā)的重要一環(huán)。但基因組測序只是第一步。

發(fā)表于 04-05 00:25 ?665次閱讀

GPU助力基因組重測序分析

等。隨著近幾年基因測序成本如圖 1所示不斷下降，在萬元內(nèi)即可完成人類的全基因組測序，GPU的技術(shù)發(fā)展也帶來分析成本與時(shí)間的下降，于是用于檢測

發(fā)表于 08-01 10:32 ?1932次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

你去將你的基因組測序了嗎？面臨挑戰(zhàn)的基因組數(shù)據(jù)壓縮技術(shù)

評(píng)論

Xilinx FPGA在基因組測序中的優(yōu)勢

全基因組數(shù)據(jù)CNV分析簡介精選資料分享

全基因組測序的優(yōu)勢精選資料分享

全基因組CNV分析的策略是什么？

全基因組測序的優(yōu)勢是什么？

什么是基因組序列數(shù)據(jù)庫

區(qū)塊鏈對(duì)基因組數(shù)據(jù)的保護(hù)

FPGA能在實(shí)時(shí)基因組測序計(jì)算中大顯身手，大大縮短時(shí)間

國產(chǎn)芯片助力全球首次實(shí)現(xiàn)手機(jī)個(gè)人全基因組測序分析

國產(chǎn)芯片助力全球首次實(shí)現(xiàn)手機(jī)個(gè)人全基因組測序分析

華大發(fā)布高精度基因組標(biāo)準(zhǔn)及解決方案開啟基因組測序“全高清”時(shí)代

AI加速推動(dòng)醫(yī)療個(gè)體化轉(zhuǎn)型基因組學(xué)將有望成為未來發(fā)展主流

微流控芯片技術(shù)在單細(xì)胞基因組學(xué)研究中的應(yīng)用

人工智能如何改變基因組學(xué)？

GPU助力基因組重測序分析

搜索歷史

你去將你的基因組測序了嗎？面臨挑戰(zhàn)的基因組數(shù)據(jù)壓縮技術(shù)

評(píng)論

你去將你的基因組測序了嗎？面臨挑戰(zhàn)的基因組數(shù)據(jù)壓縮技術(shù)