近日,中國科學院北京基因組研究所(國家生物信息中心)高遠團隊與動物研究所趙方慶團隊,開發出面向TB級轉錄組數據的高效環形RNA檢測與定量工具CIRI3,通過反向剪接序列比對與跨樣本整合算法設計,實現了TB級數據的超高速處理,并可高靈敏識別低豐度及非傳統剪接信號的新型環形RNA,突破了環形RNA大規模檢測方法的靈敏度與計算效率瓶頸。
針對現有環形RNA計算工具效率低、內存占用大等問題,CIRI3采用動態多線程任務劃分與分塊查找策略,實現了TB級測序數據的超高效處理(處理21TB SAM文件僅需105小時,峰值內存占用45.85 GB)。CIRI3可實現對大規模樣本的聯合分析。相較于單一樣本分析,聯合分析可有效防止“漏檢”,使得環形RNA的檢出率提升19.3%,并提升了低豐度環形RNA的檢測靈敏度與定量精度。同時,CIRI3對非經典剪接信號等關鍵特征具有高度的可擴展性,實現了對內含子自連接型環狀RNA等新亞型的系統性識別。綜合性能評估表明,CIRI3在環形RNA的識別與定量方面均優于現有工具,可為大規模環形RNA研究及疾病生物標志物的挖掘提供技術支撐。
基于CIRI3的大規模數據挖掘能力,研究團隊對涵蓋30種癌癥類型的2535個人類癌癥及正常樣本轉錄組測序數據進行整合挖掘,構建出迄今規模最大的AI-ready腫瘤相關環形RNA數據資源CIRIonco。評估表明,CIRI3計算的環形RNA剪接比率在不同批次和不同來源的樣本間表現出高度的穩健性,其批次效應低于傳統的反向剪接讀段數,使其成為跨批次、跨平臺整合分析的更優指標。進一步,基于差異剪接的環形RNA,團隊構建了基于人工智能的組織類型溯源與疾病表型預測模型,實現了樣本來源器官系統、組織類型及疾病水平的精準預測,展示了環形RNA作為疾病分子分型與早期診斷生物標志物的潛力。該模型可在用戶小規模數據集上遷移學習,實現優于從頭訓練模型的預測性能,為解析環形RNA的生成調控與功能機制提供了計算工具。
CIRI3是可在TB級人群隊列轉錄組數據中高效檢測和精確定量環形RNA的工具;CIRIonco數據庫為癌癥相關環形RNA的研究與功能探索提供了AI-ready數據集與計算模型,并為環形RNA在癌癥分型和精準診斷中的應用提供了方法學工具和數據基礎。
相關研究成果發表在《自然-生物技術》(Nature Biotechnology)上。研究工作得到國家重點研發計劃、國家自然科學基金、中國科學院戰略性先導科技專項等的支持。
論文鏈接
CIRI3源代碼、在線分析網頁
CIRIonco數據庫
CIRI3方法原理
CIRIonco數據庫及組織類型溯源與疾病表型預測模型
本文鏈接:研究開發出高效環形RNA檢測與定量工具http://www.hufazx.com/show-12-1888-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。