- 1產(chǎn)能減少2萬噸!住友化學(xué)宣布停產(chǎn)
- 2威星智能“智能計(jì)量表具終端未來工廠建設(shè)項(xiàng)目”等兩個(gè)募投項(xiàng)目延期
- 3工業(yè)和信息化部關(guān)于印發(fā)《水泥玻璃行業(yè)產(chǎn)能置換實(shí)施辦法(2024年本)》的通知
- 4本周機(jī)床頭條:來自津上機(jī)床、秦川機(jī)床、北京精雕、濟(jì)南二機(jī)床…
- 5海得控制2024年前三季度凈虧損1.08億元,同比止盈轉(zhuǎn)虧
- 6擬投資1.1億元,索是化工5000噸/年粉末涂料用助劑項(xiàng)目喜封金頂
- 7農(nóng)業(yè)農(nóng)村部專題研究部署推進(jìn)第三次全國土壤普查工作!
- 8國標(biāo)《運(yùn)輸包裝 可重復(fù)使用的塑料周轉(zhuǎn)箱 第2部分:試驗(yàn)通用規(guī)范》批準(zhǔn)發(fā)布
- 9涪陵:發(fā)展綜合能源站,有利提升頁巖氣消納規(guī)模
導(dǎo)讀:
2017年的zui后一周,我國啟動(dòng)了“中國十萬人基因組計(jì)劃”,繪制中國人的精細(xì)基因組圖譜,這是我國在人類基因組研究領(lǐng)域?qū)嵤┑?重大計(jì)劃,需要在四年內(nèi)完成全部的基因測序與分析任務(wù)。
作為六家單位之一,北京諾禾致源參與了此次十萬人基因組計(jì)劃,借助阿里云的計(jì)算和存儲(chǔ)能力,諾禾致源能在17分鐘內(nèi)就加載完1萬個(gè)人類全基因組數(shù)據(jù),僅用1.5小時(shí)就可完成單個(gè)基因測序pipeline,比此前快了46倍之多,*縮短了測序的時(shí)間。
在云計(jì)算快速發(fā)展的這幾年中,諾禾致源一直在努力推進(jìn)基因測序上云建設(shè)。目前,諾禾致源已將基因測序業(yè)務(wù)陸續(xù)遷移到阿里云,為基因行業(yè)全面云化實(shí)現(xiàn)云上數(shù)據(jù)采集、基因測序、結(jié)果交付的夢(mèng)想,邁出堅(jiān)實(shí)且重要的一步。
基因業(yè)務(wù)快速增長本地IT資源遇難題
諾禾致源成立于2011年,彼時(shí)之云計(jì)算還處于起步階段,諾禾選擇了自建本地IT資源來承載業(yè)務(wù)。然而隨著近年業(yè)務(wù)的增長,以及本地IT資源面臨升級(jí)改造的時(shí)間節(jié)點(diǎn),問題逐漸暴露:
——服務(wù)器配置不足,運(yùn)行性能不理想
· 系統(tǒng)運(yùn)行速度慢
· 業(yè)務(wù)卡頓不流暢
· 數(shù)據(jù)上傳速度慢,非常耗時(shí)
——傳統(tǒng)存儲(chǔ)無法滿足業(yè)務(wù)快速增長
· 物理存儲(chǔ)介質(zhì)有安全隱患,老化、意外丟失、損壞
· 存儲(chǔ)容量有限,無法應(yīng)對(duì)突發(fā)業(yè)務(wù)
· 需要專人運(yùn)維保管,增加人力成本
· 售后服務(wù)差,溝通成本
——定制化分析較困難
· 業(yè)務(wù)與IT資源匹配溝通成本高
· IT資源無法定制化,技術(shù)不匹配
· 本地資源排隊(duì),數(shù)據(jù)分析延誤長達(dá)1個(gè)月
CPFS+FPGA 存儲(chǔ)+計(jì)算的云上基因平臺(tái)
日前,阿里云推出了基于NAS的并行文件系統(tǒng)——CPFS,可提供高達(dá)1億的IOPS和1TB/s的吞吐能力,支持大型并行數(shù)據(jù)處理能力,可大幅提升基因測序、科學(xué)計(jì)算等高性能計(jì)算的工作效率。
具體來說,CPFS可將數(shù)據(jù)條帶化后均勻分布在整個(gè)存儲(chǔ)集群上,允許client并行訪問,吞吐和IOPS隨存儲(chǔ)節(jié)點(diǎn)的數(shù)量實(shí)現(xiàn)線性增長,整個(gè)存儲(chǔ)集群對(duì)外提供超高的聚合帶寬和IOPS。同時(shí),采用融合以太網(wǎng)的RDMA協(xié)議(RoCE)網(wǎng)絡(luò)縮短IO訪問的網(wǎng)絡(luò)時(shí)延,進(jìn)一步提高了IO訪問速度。
此外,基于Paxos ring的仲裁調(diào)度,CPFS可自動(dòng)檢測服務(wù)節(jié)點(diǎn)異常,快速切換到備用節(jié)點(diǎn),保障服務(wù)的可用性。
諾禾致源*時(shí)間在云端構(gòu)建了基于阿里云CPFS的基因測序解決方案。如下圖所示,通過專線連接阿里云,人基因數(shù)據(jù)從測序儀下機(jī)后,樣本數(shù)據(jù)通過專線上傳到云端的OSS對(duì)象存儲(chǔ)中,再通過CPFS并行文件系統(tǒng)配合ECS計(jì)算集群完成基因測序任務(wù)。
業(yè)務(wù)系統(tǒng)上云后,數(shù)據(jù)分析過程都在云端完成,除了常規(guī)的ECS彈性計(jì)算外,諾禾致源還創(chuàng)新引入了阿里云推出的FPGA云服務(wù)器,這是一款現(xiàn)場可編程門陣列(FPGA)的計(jì)算實(shí)例,這類異構(gòu)計(jì)算實(shí)例支持并行計(jì)算,計(jì)算能力、吞吐量、能耗比比傳統(tǒng)CPU或GPU要強(qiáng)上十倍。
由于FPGA硬件的可重配特性,用戶可以對(duì)已創(chuàng)建的FPGA硬件加速應(yīng)用,進(jìn)行快速擦寫和重配,達(dá)到低時(shí)延硬件與彈性伸縮的結(jié)合?;贔PGA+CPFS的黃金組合,諾禾致源將單個(gè)基因測序pipeline從傳統(tǒng)模式下的70個(gè)小時(shí)縮短為僅用1.5個(gè)小時(shí)即可完成。同時(shí),僅需17分鐘即可加載完1萬個(gè)人類全基因組數(shù)據(jù),這些原始數(shù)據(jù)多達(dá)300GB。這一速度對(duì)臨床醫(yī)學(xué)的快速診斷、科研成果的快速轉(zhuǎn)換具有重大意義。
云計(jì)算助力醫(yī)學(xué)基因科學(xué)如虎添翼
借助于阿里云提供的海量云存儲(chǔ)和批量彈性計(jì)算,諾禾致源能夠以更大的吞吐、更快的速度、更低的成本分析人類基因組數(shù)據(jù),助力醫(yī)學(xué)。
截至目前,諾禾致源運(yùn)營有25臺(tái)Novaseq和三套Hiseq X Ten,每年可完成28萬人的全基因組測序,是zui大的基因測序平臺(tái),業(yè)務(wù)覆蓋科技服務(wù)、腫瘤基因檢測及遺傳檢測三大領(lǐng)域,*地提升了國人遺傳疾病分析和診斷的效率。
云帶來的不僅是效率的提升,還有成本的下降,目前機(jī)構(gòu)的檢測成本已低至數(shù)百美元。這一價(jià)格還將持續(xù)下降。今后,人類做一次檢測,或?qū)⒑陀皿w溫計(jì)量一次體溫一樣便捷。
或許在數(shù)年之內(nèi),每個(gè)新生兒都會(huì)被繪制基因組圖,每個(gè)成年人都通曉生命出路。(生物谷Bioon.com)