喜訊

? ? ? ? 近日,生命與健康科學(xué)學(xué)院竺立哲教授課題組與南方科技大學(xué)陳煒教授、香港科技大學(xué)黃旭輝教授和沙特阿卜杜拉國王科技大學(xué)高欣教授課題組合作,在Nature?子刊Nature Communications(《自然通訊》)上發(fā)表論文“A deep learning framework to predict binding preference of RNA constituents on protein surface”。竺立哲教授為該論文的共同通訊作者之一。

? ? ? ? 該論文提出的NucleicNet,是一種研究RBP 和RNA 結(jié)合的全新算法框架,可以同時提供 RBP 和 RNA 相互作用時的結(jié)構(gòu)信息以及大規(guī)模的結(jié)合強度信息。此外,該框架可適用于其他類似問題,如蛋白質(zhì)和藥物小分子的相互作用,為新藥研發(fā)提供新思路。

?

科研成果簡介

? ? ? ? RNA 結(jié)合蛋白(RBP)是基因表達調(diào)控中不可或缺的一類生物分子,對于轉(zhuǎn)錄后調(diào)控尤為關(guān)鍵。比如,Argonaute蛋白是RNA 干擾(RNAi)的核心酶, PUF 蛋白可以直接影響 mRNA 的表達等。破譯RNA與蛋白相互作用的特異性和機制,對于理解RBPs功能、鑒定和識別RBPs、研究轉(zhuǎn)錄后調(diào)控以及設(shè)計用于RBPs識別和調(diào)節(jié)的RNAs等一系列問題都具有重要意義。

? ? ? ? 目前研究RBP 和 RNA 相互作用的實驗方法可分為兩類,一為基于Assay 的大規(guī)模化驗分析,二為基于RBP 和RNA 結(jié)合復(fù)合物的結(jié)構(gòu)分析。前者可大規(guī)模地測試 RBP 和RNA 的結(jié)合強度及RBP 對RNA 序列的選擇性。基于此類實驗結(jié)果的計算方法(如DeepBind等)可以整合和學(xué)習(xí)化驗數(shù)據(jù)從而推斷特異性模式,但無法揭示它們相互作用時的結(jié)構(gòu)細(xì)節(jié),尤其是無法鑒別其相互作用是通過堿基直接完成還是通過主鏈間接達成。復(fù)合物結(jié)構(gòu)分析可以揭示RBP-RNA 作用細(xì)節(jié),但受限于結(jié)構(gòu)生物學(xué)實驗的高昂成本無法大規(guī)模快速進行,導(dǎo)致在含某一特定RBP的已知RBP-RNA 復(fù)合物結(jié)構(gòu)中的RNA 序列數(shù)量較少,通常不具有統(tǒng)計學(xué)意義。此外,已知的基于結(jié)構(gòu)和序列的計算方法都只能區(qū)分結(jié)合位點和非結(jié)合位點,而無法預(yù)測RBP 對特定RNA 序列的偏好性和作用模式。

? ? ? ?? 針對以上問題,該論文提出了一種僅僅基于已知的復(fù)合物結(jié)構(gòu)便可預(yù)測RBP-RNA相互作用機制和特異性的深度學(xué)習(xí)算法框架NucleicNet。該方法具有以下四大功能:

? ? ? ? (1)預(yù)測RBP與RNA具體作用模式,并將其可視化;

? ? ? ? (2)無需大規(guī)模化驗數(shù)據(jù)即可得到與實驗可比的結(jié)果;

? ? ? ? (3)可對RBP與某一RNA序列的結(jié)合強度進行評分;

? ? ? ? (4)在不同RBPs家族中具有普適性,或可被用于識別新的RBPs及預(yù)測它們與RNA結(jié)合的位點及特異性。

? ? ? ?? 如上圖所示,NucleicNet 從蛋白質(zhì)的結(jié)構(gòu)出發(fā),首先在被研究蛋白質(zhì)的表面產(chǎn)生空間點陣,然后預(yù)測空間點陣中的每一個點結(jié)合RNA 各個基團(磷酸、核糖、腺嘌呤、鳥嘌呤、胞嘧啶、尿嘧啶)的概率。對于每一個空間點,該方法使用斯坦福大學(xué) Russ Altman 課題組(也是本文作者之一)所研發(fā)的 FEATRURE 框架去提取和該點有關(guān)的結(jié)構(gòu)及理化性質(zhì)信息。這些信息會被輸入到一個深度學(xué)習(xí)模型之中,從而得到該點結(jié)合RNA 各個基團的概率。不同空間點與 RNA 基團的結(jié)合情況合并到一起,就可以得到RBP 與RNA 結(jié)合的結(jié)構(gòu)信息,同時可預(yù)測每個點與潛在RNA序列的結(jié)合強度。由于算法本身的并行性,我們可以在短時間內(nèi)預(yù)測RBP 和大量RNA 的結(jié)合機制及結(jié)合強度。對于已知的RBP,NucleicNet 可以對所有可能結(jié)合的RNA 序列進行打分和排序;對于任一蛋白質(zhì),NucleicNet 可預(yù)測其與RNA 結(jié)合的可能性(結(jié)合位點及傾向的RNA 序列),因此可用于識別該蛋白是否是RBP。

? ? ? ? 該論文同時使用了機器學(xué)習(xí)的標(biāo)準(zhǔn)評價方法以及實驗方法去驗證該方法的有效性。以機器學(xué)習(xí)的標(biāo)準(zhǔn)評價方式來看,該方法的準(zhǔn)確性比其他已知方法提高了 35%。同時,在僅被用于預(yù)測RBP 上的氨基酸位點是否是RNA結(jié)合位點時,NucleicNet 的預(yù)測準(zhǔn)確率也優(yōu)于其他已知方法,盡管這并非其主要設(shè)計目標(biāo)。

? ? ? ?? 該論文使用了三種生物實驗去驗證其有效性。第一種RNACompete 實驗使用RBP 在大規(guī)模的RNA 庫中去競爭性地結(jié)合 RNA,從而得到該RBP 和RNA 的結(jié)合選擇性。結(jié)果顯示,NucleicNet 預(yù)測出的結(jié)合選擇性和RNACompete 實驗結(jié)果得到的結(jié)合選擇性非常吻合(Pearson 相關(guān)系數(shù)高達 0.8)。

? ? ? ? 第二個實驗是讓NucleicNet 去區(qū)分能和 Argonaute蛋白形成成熟的RISC complex 的 guide RNA strand 以及被釋放的passenger RNA strand。直觀來看,guide strand 同 Argonaute 的結(jié)合性應(yīng)該比passenger strand 要高,因為guide strand 最終可以和 Argonaute 結(jié)合形成了穩(wěn)定的復(fù)合物。預(yù)測的結(jié)果顯示,在 222 例實驗中,NucleicNet 可以正確預(yù)測其中 76% 的實驗,為guide strand 打出更高的結(jié)合強度評分。值得一提的是,NucleicNet 的訓(xùn)練數(shù)據(jù)不含有任何Assay 化驗的信息,因此其預(yù)測結(jié)果與Assay 實驗的高吻合度說明了NucleicNet 從結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)蛋白質(zhì)和RNA 結(jié)合的統(tǒng)計學(xué)規(guī)律的能力。

? ? ? ? 最后一個實驗是驗證NucleicNet 預(yù)測的 Ago 和 siRNA 的結(jié)合強度是否和該siRNA 的敲低效率成正相關(guān)。結(jié)果顯示,在 37 例基因中,22 例實驗呈正相關(guān)。也就是說,盡管在活體實驗條件下有眾多其他因素會影響到 siRNA 的敲低效率,Argonaute 和siRNA 的結(jié)合強度仍是影響敲低效率的首要因素。這同時也意味著NucleicNet 有助于設(shè)計出敲低效率更高的siRNA。

? ? ? ? 綜上所述,NucleicNet 是一種研究RBP 和RNA 結(jié)合的全新算法框架。通過使用深度學(xué)習(xí)和FEATURE 特征提取框架,該方法可以同時提供RBP 和RNA 相互作用時的結(jié)構(gòu)信息以及大規(guī)模的結(jié)合強度信息。大量的計算實驗和生物實驗驗證了該方法的有效性。同時,該框架亦或適用于其他類似問題,如蛋白質(zhì)和藥物小分子的相互作用,為新藥研發(fā)提供了新的思路。

?

竺立哲教授簡介

?

? ? ? ? 竺立哲教授是香港中文大學(xué)(深圳)生命與健康科學(xué)學(xué)院及瓦謝爾計算生物研究院的助理教授、博士生導(dǎo)師。他目前為本科生主講“分子模擬與建模I”(Molecular Simulations & Modeling I),下學(xué)期將開設(shè)“計算生物學(xué)”(Computational Biology)課程。

? ? ? ? 竺立哲教授畢業(yè)于阿姆斯特丹大學(xué)化學(xué)系,曾任瑪麗居里初級研究員,通過分子模擬手段研究蛋白質(zhì)受體別構(gòu)效應(yīng)的機理。竺教授于2012年赴香港科技大學(xué)從事博士后研究,致力于增強抽樣算法同馬爾可夫態(tài)模型方法的整合。

? ? ? ? 竺立哲教授團隊目前的研究興趣包括RNA與蛋白質(zhì)相互作用,RNA/DNA 干擾機制,高效自動化路徑搜索方法,機器學(xué)習(xí)與增強采樣算法的整合等。迄今已在國際主流期刊 Nature Communications,Physical Review Letters, The Journal of Physical Chemistry Letters, PLOS Computational Biology, Current Opinion in Structural Biology, Journal of Computational Chemistry 等發(fā)表論文20余篇。