小干涉RNA沉默效率預測和長非編碼RNA表觀調控研究.pdf_第1頁
已閱讀1頁,還剩86頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、ENCODE計劃揭示整個人類基因組的大部分會被轉錄,而其中編碼蛋白的轉錄本只占很少一部分,大多數轉錄本是非編碼RNA,如rRNA、tRNA、siRNA、miRNA、piRNA、lncRNA等。它們構成了復雜的調控網絡,可以精細地調控基因的表達。對這些非編碼RNA的研究重新定義了“基因”的概念。本文以siRNA和lncRNA為研究對象,研究了影響siRNA的沉默基因效率的因素,分析了表觀遺傳修飾與lncRNA基因表達的相關性。
  

2、RNA干涉是通過沉默特定基因研究基因功能的有力工具,并廣泛應用于靶向藥物設計,為基因治療提供了新方向。對于小干涉RNA(siRNA)的設計而言,并不是針對靶基因的每個位點都具有同樣的抑制效率。所以一個成功的RNA干涉實驗,選擇最佳沉默效率的小干涉RNA是最關鍵的一步。許多研究者已經總結了一些篩選原則,并利用各種機器學習算法優(yōu)化siRNA的設計,但仍然未達到令人滿意的效果。預測精度的限制主要來源于對分子機制缺乏完整的理解。目前所知:siR

3、NA與Argonaute蛋白的結合是其行使功能的關鍵。在上游過程中,核苷酸組分和siRNA熱力學穩(wěn)定性影響著RISC沉默復合體的組裝,進而決定siRNA的沉默效率。而下游過程中,對靶mRNA的可及性是否影響沉默效率還存有爭議。Reynolds等人的實驗證明siRNA的沉默效率不依賴于靶mRNA的特征屬性,更傾向于受siRNA小分子固有屬性影響。而Luo和Heale有著不同見解,他們認為靶mRNA的二級結構是沉默效率高低的決定因素,并將其

4、應用到siRNA沉默效率的預測中。與此同時,有幾個實驗室的實驗結果也支持他們的觀點。盡管實驗研究已經表明RNAi是依賴于ATP水解能的多蛋白參與的復雜過程,但一些細節(jié)還很模糊,比如RISC是如何尋找靶基因的?尋靶過程是否依賴結合位點上下文環(huán)境?所以發(fā)現一些潛在的影響因素是一項重要的任務。
  近來,已有實驗研究證明當miRNA結合位點處于AU-rich的上下文環(huán)境中,能夠幫助miRNA與靶的結合;Sun等人認為在miRNA結合位點

5、上游區(qū)域包含一些AU-rich motif,比如ARE(AU-rich elements)的核心序列“AUUUA”,可以增加其抑制蛋白翻譯的效率;Kertesz提出了一個包含側翼序列信息的miRNA靶位點識別模型。但目前還沒有針對siRNA結合位點上下文環(huán)境的研究。鑒于siRNA與miRNA分子機制的相似性,本文重點探討siRNA結合位點兩側序列是否影響其沉默效率。這需要大量隨機設計的siRNA作為統(tǒng)計樣本,一個針對34個基因隨機設計的

6、2431個siRNA的數據庫為我們的研究提供了可能。
  通過統(tǒng)計siRNA靶位點側翼序列核苷酸分布特征發(fā)現:相對而言,高效率siRNA結合位點側翼序列更富含AU核苷酸。進一步利用二項式分布算法統(tǒng)計6聯(lián)體motif的偏好性,發(fā)現在高效siRNA結合位點上下文環(huán)境中偏好出現一些AU-rich motif,同樣包含了“AUUUA”序列。綜合所有影響因素(核苷酸組分、5'端與3'端穩(wěn)定性差異、靶mRNA的可及性、側翼序列核苷酸分布特征與

7、AU-rich motif偏好性等),我們提出了一個新穎的兩步算法用于預測siRNA效率。這一算法結合隨機森林和支持向量機建立訓練模型,去除冗余的信息,選擇最佳特征子集,并能給出每個特征的貢獻重要性指標。在獨立測試集上預測的結果顯示皮爾遜相關性達到0.721,而國際知名預測算法Biopredsi、i-score、DSIR和ThermoComposition21分別為0.671、0.668、0.645、0.680。對特征的相關性分析表明,

8、靶可及性是最重要的指標之一。另外,當引入靶位點側翼序列特征后,預測率得到顯著提高。這說明siRNA與靶mRNA的相互作用不僅在結合位點區(qū)域需要合適的序列組分和結構狀態(tài),而且受到更寬泛的區(qū)域的影響,甚至可能有更多的RNA結合蛋白參與此過程。
  作為生命調控的新層面,長非編碼RNA近年來受到廣泛的關注,它的越來越多的功能也被發(fā)現,比如在基因組印跡、X染色體失活等表觀遺傳修飾通路中起到關鍵作用。但表觀遺傳修飾對lncRNA表達影響的研

9、究相對較少,我們重點分析了11種組蛋白修飾(H3K4me1、H3K4me2、H3K4me3、H3K9me1、H3K9me3、H3K27me3、H3K36me3、H3K79me2、H4K20me1、H3K9ac、H3K27ac)和一種組蛋白變體H2A.Z以及DNaseI高敏位點等染色質特征與lncRNA基因表達的關系。發(fā)現lncRNA與蛋白編碼基因有著相似的規(guī)律:在TSS附近,組蛋白修飾H3K9ac、H3K27ac、H3K79me2、H3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論