南湖新聞網

四方物流 > 新聞 > 科學研究 > 正文

我校發佈水稻基因組序列變異的功能效應圖譜

核心提示: 2021年6月29日,我校作物遺傳改良國家重點實驗室水稻團隊謝為博教授課題組在準確獲取4,726份水稻品種的單倍型圖譜的基礎上,定量註釋了數百萬個序列變異在水稻編碼區以及調控區的效應,並詳細分析了變異位點效應的功能特性及組織特異性,發現編碼區大效應變異受到強烈的淨化選擇,而調控區大效應變異可能受到了正選擇。

南湖新聞網訊(通訊員 趙虎)6月29日,我校作物遺傳改良國家重點實驗室水稻團隊謝為博教授課題組在準確獲取4,726份水稻品種的單倍型圖譜的基礎上,定量註釋了數百萬個序列變異在水稻編碼區以及調控區的效應,並詳細分析了變異位點效應的功能特性及組織特異性,發現編碼區大效應變異受到強烈的淨化選擇,而調控區大效應變異可能受到了正選擇。該研究產生的序列變異功能效應圖譜可用於篩選關鍵變異位點,將有助於水稻農藝性狀重要基因的克隆和機制解析,並有望加速水稻種質資源的精準鑑定和稀有優異變異的挖掘。

 在過去的十年中,全基因組關聯分析(GWAS)已被廣泛用於水稻重要農藝性狀關鍵調控基因的鑑定。然而,由於水稻中的連鎖不平衡衰減距離較長,導致大量中性變異位點在GWAS中也很顯著,因此關鍵變異位點的鑑定比較困難。同時,水稻中60%以上的變異位點的次要等位基因頻率小於5%,這些稀有變異難以通過GWAS進行評估和挖掘。因此,構建一個準確、全面的功能註釋平台來評估和預測序列變異的影響非常重要。這樣的平台提供了獨立於遺傳學研究的信息,將可以幫助篩選GWAS關鍵變異位點,以及挖掘稀有優異變異位點。

該研究首先利用4,726份水稻品種的重測序數據鑑定出17,397,026個在至少10個品種中能重複鑑定到的變異位點,通過基因型填補,獲得了各個品種準確完整的單倍型圖譜。然後,基於編碼區變異的單倍型信息鑑定了各品種的錯義突變位點,並根據氨基酸殘基的保存情況定量評估了每個錯義突變的效應,最終得到了918,848個非冗餘錯義突變的效應。通過比較羣體中具有不同等位基因頻率的變異中大效應變異的比例,發現編碼區的大效應突變傾向於具有較低的等位基因頻率,即受到了強烈的淨化選擇。

水稻序列變異效應圖譜的構建框架

水稻序列變異效應圖譜的構建框架

水稻中超過80%的變異位點位於非編碼區,很多非編碼區變異通過影響重要基因的表觀狀態和表達量進而影響了水稻的農藝性狀。然而,這些變異的效應在之前的研究中一直缺乏關注和相關的研究手段。人類醫學及該課題組最近的研究表明基於高質量的染色質可及性數據可建立深度學習模型,進而可以準確預測序列變異對染色質可及性的影響,據此可註釋非編碼區調控變異的效應(參見水稻團隊發佈基於深度學習模型預測植物基因組序列變異調控效應的網絡服務)

為此,該研究利用ATAC-seq技術首先獲得了水稻品種珍汕97的6個代表性組織的高質量染色質可及性數據,從中鑑定出157,837個高可信的染色質開放區(open chromatin region,OCR),約佔整個基因組的14.2%。發現很多重要基因的調控區及GWAS顯著位點均富集於OCR中,表明OCR對於GWAS調控變異的鑑定十分重要。利用染色質可及性數據以及對應的基因組序列信息構建了深度神經網絡模型。通過評估,該模型可以準確預測不同組織間的染色質開放狀態,不同樣本在測試集中的預測值與真實值相關性(R2)在0.61到0.72之間,各組織平均的曲線下面積(AUROC)達到0.945(圖2)。利用雜種中等位基因特異的染色質可及性獨立實驗數據進行的評估表明,該模型預測單倍型效應方向的準確率達到0.94以上。這些結果表明該模型具有較高的準確性。

深度學習模型準確性的評估

深度學習模型準確性的評估

基於上述深度學習模型,該研究預測了5,067,405個序列變異對其周圍染色質可及性的影響(效應)。與編碼區大效應變異的分佈不同的是,該研究發現水稻品種羣體尤其是秈稻亞羣在OCR區固定了大量的大效應調控變異,表明這些變異可能受到了正選擇。通過與基因組分佈比較發現這些大效應的變異在基因轉錄起始區域上游0-200 bp範圍內擁有更高的比例。通過不同組織間變異效應的比較分析發現,變異效應在不同組織間有較高的一致性(R2在0.35到0.85之間),同時還發現組織間預測方向相反的大效應變異(在一個組織預測為突變後使得染色質可及性增加而在另一個組織中預測會使染色質可及性降低或相反)富集於基因間遠端調控區域,而轉錄起始位點附近的啓動子區域富集各個組織中方向相同的大效應變異。

該研究最後利用DEP1以及GW7等例子證明了該資源在尋找關鍵序列變異方面的可用性。為了方便更多研究者使用,該資源已被整合到RiceVarMap數據庫(//ricevarmap.ncpgr.cn/)中,使用者可以通過基因ID/名稱以及變異ID、上傳VCF文件等多種方式快速便捷的獲取數據庫中變異的註釋結果。

序列變異效應圖譜的使用示例

序列變異效應圖譜的使用示例

該研究在Molecular Plant在線發表,題為“An inferred functional impact map of genetic variants in rice”。華中農業大學作物遺傳改良國家重點實驗室謝為博教授為該論文的通訊作者,趙虎博士為第一作者。廣西大學陳玲玲教授以及華中農業大學熊立仲教授對該研究給予了指導和幫助。華中農業大學王磊博士以及倪福川老師也為本研究提供了幫助。該研究的數據分析工作得到武漢大學超算平台以及華中農業大學作物遺傳改良國家重點實驗室生物信息計算平台的支持和幫助,得到國家重點研發計劃(2016YFD0100803)、國家自然科學基金(31821005, 31922065, 317717555)以及亞熱帶農業生物資源保護與利用國家實驗室開放課題(SKLCUSA-b202002)的資助。

英文摘要

Interpreting the functional impacts of genetic variants (GVs) is an important challenge for functional genomic studies in crops and next-generation breeding. Currently, studies in rice (Oryza sativa) have mainly focused on the identification of GVs, while the functional annotation of GVs has not yet been systematically carried out. Here we present a functional impact map of GVs in rice. We curated haplotype information of 17,397,026 GVs from sequencing data of 4,726 rice accessions. We quantitatively evaluated the effects of missense mutations in coding regions in each haplotype based on the conservation of amino acid residues and obtained the effects of 918,848 non-redundant missense GVs. We also generated high-quality chromatin accessibility (CA) data from six representative rice tissues and used these data to train deep convolutional neural network models to predict the impacts of 5,067,405 GVs for CA in regulatory regions. We characterized the functional properties and tissue specificity of the effects of GVs and found that large-effect GVs in coding and regulatory regions might be subject to selection in different directions. We finally demonstrated how the functional impact map could be used to prioritize the causal variants in mapping populations. This impact map will be a useful resource for accelerating gene cloning and functional studies in rice and can be freely queried in RiceVarMap V2.0 (//ricevarmap.ncpgr.cn).

論文鏈接

//www.cell.com/molecular-plant/fulltext/S1674-2052(21)00260-4

審核人:謝為博

責任編輯:蔣朝常 岑志南