桑樹全基因組轉座子的鑒定及特征分析.pdf_第1頁
已閱讀1頁,還剩130頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、轉座子是一大類廣泛存在于生物基因組中的DNA序列,其通過轉錄或者逆轉錄的方式,將自身的一個拷貝插入到基因組新的位點。二十世紀四十年代后期Babara McClintock首次發(fā)現轉座子,隨著越來越多物種基因組序列的公布,發(fā)現轉座子在所有生物基因組中廣泛分布,而且隨著研究的深入,發(fā)現這些轉座子對其宿主有著極為重要的作用,具體表現在對宿主基因組的擴增、基因組重排、新基因形成、基因破壞、基因表達活性以及驅動microRNA的形成等多個方面。<

2、br>  桑樹是一種多年生的木本植物,長期以來人們對桑樹的認識都停留在栽桑養(yǎng)蠶的層面上,其生態(tài)價值、經濟價值以及藥用價值等被忽視。近年來隨著研究的深入,其綜合利用價值逐斬得到發(fā)掘,諸如石漠化治理、鹽堿地治理、防風治沙等多種生態(tài)價值,桑葉、桑葚、桑皮、桑根等的藥用價值以及桑葉、桑葚等作為保健食品等的經濟價值。然而即便如此,作為??浦参锏拇?,桑樹的分子研究基礎非常薄弱,關于其轉座子方面的研究基礎仍是一個空白,因此對桑樹轉座子的研究對于我們

3、進一步了解桑樹的特性有著重要的意義。
  桑樹基因組測序的完成,為我們從全基因組層面上對桑樹基因組中轉座子進行全面的鑒定以及分析提供了絕佳的機會。本研究基于多種方法從全基因組層面對桑樹中的所有轉座子進行鑒定,并所有轉座子的分布特征、插入區(qū)間偏好性及其對基因的影響等方面進行分析。LTR類逆轉錄轉座子占據了所有轉座子的絕大部分,因此我們進一步對桑樹中的這些LTR逆轉錄轉座子的特性進行分析。另外,在鑒定轉座子的過程當中發(fā)現在含量最為豐富

4、的LTR類逆轉錄轉座子中存在大量Nested LTR類逆轉錄轉座子,Nested LTR逆轉錄轉座子對染色體著絲粒的形成和基因組的進化、擴增等具有著重要的意義,我們對這部分Nested逆轉錄轉座子的特征也進行了分析。主要研究結果如下:
  一、全基因組轉座子的鑒定及轉座子數據庫的構建
  1、為了全面鑒定桑樹中的轉座子,考慮到各種方法的優(yōu)缺點、最終我們結合多種方法來完成對桑樹基因組中轉座子的鑒定。所用到的方法包括De nov

5、o鑒定方法、基于結構特征鑒定方法和基于同源性鑒定方法。匯總全部方法鑒定到的序列庫命名為CustomLib。將CustomLib與已知的三個數據庫(Repbase、Plant Repeat Database、RepeatPep)比對篩選,最終得到可靠的轉座子序列共計5925條,并將這些序列劃分為13個超家族,包括Copia、Gypsy、Lard、Trim、L1、RTE、hAT、CMC、PIF-Harbinger、MuLE、TcMar、MI

6、TE、Helitron等,轉座子依據wicker提出的標準進行命名。
  2、對于轉座子家族的劃分,我們根據wicker提出的80-80-80 rule進行,最終我們將這5925個轉座子序列劃分為1062個家族,其中Copia有226個家族、Gypsy有145個家族、Lard有312個家族、Trim有119個家族、L1有19個家族、RTE有30個家族、PIF-Harbinger有31個家族、hAT有44個家族、CMC有38個家族、

7、MuLE有39個家族、TcMar有1個家族、MITE有26個家族、Helitron有32個家族。
  3、為方便研究者使用這部分轉座子信息,我們采用LAMP(Linux、 Apache、MySQL、PHP/Perl)技術構建了桑樹轉座子數據庫(MnTEdb,http://morus.swu.edu.cn/mntedb/),該數據庫全面整合桑樹基因組中鑒定到的所有轉座子序列信息,除了為用戶提供信息瀏覽、查詢、下載等功能外,還整合了數

8、個可用于對轉座子序列進行分析的工具,包括有BLAST、GetORF、HMMER、Sequence Extractor以及JBrowse等工具。與已有桑樹相關數據庫MorusDB相比而言,MnTEdb具有自己的特點及優(yōu)勢:該數據庫專注于桑樹轉座子信息,包含有桑樹中已鑒定到的全部轉座子信息:該數據庫還為轉座子的研究提供了多種分析工具:另外該數據庫將作為一個綜合數據庫,待后續(xù)??浦参锘蚪M測序完成之后,我們會進一步將該物種的轉座子信息匯總到該

9、數據庫,為物種之間的比較分析提供可靠的數據來源。
  二、桑樹轉座子的特征分析
  1、對桑樹全基因組的轉座子進行注釋,結果表明,共計有125.3 MB的序列可以注釋為轉座子相關序列,占川?;蚪M的37.87%(125.3/330.79),其中以逆轉錄轉座子所占比例最高,達到了29.26%,逆轉錄轉座子中又以Copia、Gypsy和Lard所占比例最高,分別為10.44%、9.20%和8.59%。DNA轉座子只占到總基因組的

10、8.6%。這與眾多已測序物種中轉座子分布規(guī)律相似。
  2、桑樹scaffold N50為390115 bp,我們選取大于scaffold N50的總計245個scaffolds進行轉座子覆蓋度和基因覆蓋度相關性分析。結果表明,轉座子覆蓋度和基因覆蓋度呈負相關關系(r=-0.759,p<0.01)。進一步選取245個scaffolds中代表性的30個scaffolds(10個TE-richscaffolds;10個Gene-ric

11、h scaffolds及10個TE和Gene覆蓋度相似的scaffolds),將每個scaffold以50kb做為一個窗口分割。對分割后的窗口上TE和基因的分布進行分析,也得到了相同的結果。結合LTR逆轉錄轉座子比例為最高這個結果,最終認為LTR逆轉錄轉座子的分布對基因組所產生的影響最大。
  3、進一步對scaffold上的轉座子覆蓋度和有表達活性的基因比例進行相關性分析,設定如果在川桑轉錄組測序的5個組織中至少一個組織里基因的

12、RPKM值大于1,則認為該基因有表達活性,按此標準進行分析發(fā)現245個scaffolds上有轉錄活性的基因占74.9%(11162/14909)。相關性分析結果同樣表明兩者之間呈現負相關關系(r=-0.556,p<0.01)。這些分析結果進一步說明轉座子對其鄰近基因活性具有潛在的調節(jié)作用。
  4、我們設定3個區(qū)域:基因內部、基因上下游2kb區(qū)域以及基因上下游2-5 kb區(qū)域。對桑樹中轉座子在不同區(qū)間插入偏好性進行分析,結果表明不

13、同類型轉座子在不同區(qū)間內的插入偏好性不同。由于轉座子對鄰近基因的調節(jié)作用以及其可作為表觀沉默的靶標從而調節(jié)鄰近基因,因此該偏好性分析結果具有重要意義。
  5、通過對基因內部以及基因上下游2kb區(qū)域內存在轉座子的基因進行注釋及Pathway分析,結果表明這些基因主要參與的生物過程有metabolic process(37.1%)、cellular process(29.6%)和single-organism process(10.

14、7%);分子功能則集中在binding(46.4%)和catalytic activity(39.8%);細胞組分主要位于cell(36.3%)、membrane(29.1%)、organelle(19.1%)和macromolecular complex(12.5%)。Pathway分析顯示這些基因參與到了至少有104個途徑當中,該結果進一步暗示了轉座子對物種基因組有重要作用。
  三、逆轉錄轉座子逆轉錄酶(Reverse tr

15、anscriptase,RT)片段的克隆及特征分析
  1、利用Copia和Gypsy的RT片段的簡并引物,從桑樹基因組中分別得到106個Copia RT片段克隆和101個Gypsy RT片段克隆。
  2、對RT片段的序列特征分析,結果顯示Copia RT序列長度范圍從240 bp到278 bp,Gypsy RT序列長度范圍從408 bp到437bp; Copia RT和Gypsy RT均富含AT,AT/GC比例范圍分別為

16、1.16-1.58和1.43-1.55。Copia RT和Gypsy RT序列相似度范圍分別為0.419-0.992和0.535-0,997。該結果說明這些RT片段均呈現出高異質性的特點。而且Copia的RT序列較之Gypsy RT序列的分化程度更高,序列相似度的分布范圍也更加分散。
  3、Copia RT和Gypsy RT均存在隨機分布的提前終止和移碼突變等現象。Copia RT有53.8%的序列是完整序列,Gypsy RT則

17、有48.5%的序列為完整序列。進一步分析氨基酸序列保守程度發(fā)現,造成RT序列高異質性的原因是由于其序列中存在的提前終止和移碼突變的隨機性分布現象。
  4、通過選取公共數據庫中已有的RT序列與桑樹中RT序列進行系統(tǒng)發(fā)生分析,結果表明無論Copia還是Gypsy來源的RT序列均出現進化樹與物種的系統(tǒng)分類關系不一致的現象,這些結果暗示了LTR類逆轉錄轉座子可能在不同植物物種之間存在水平轉移現象。
  5、對Copia RT和Gy

18、psy RT分別進行選擇壓力分析,結果表明,兩者都受到了凈化選擇壓力。相對而言,Gypsy的RT序列比Copia的RT序列受到較為寬松的選擇約束。
  6、利用熒光原位雜交(Fluorescence in situ hybridization,FISH)技術對桑樹的Copia和Gypsy逆轉錄轉座子的染色體定位分析結果顯示,Copia和Gypsy除了大量分布在近著絲粒區(qū)域之外,也有少部分分布在染色體的近端粒區(qū)域。
  四、L

19、TR的特征分析
  1、在桑樹基因組中共計鑒定到584條tRNA序列,其中553條可以得到明確分類。結合構建完成的tRNA庫,最終得到桑樹中全長的LTR類逆轉錄轉座子3892條,其中Copia1532,Gypsy1384,Lard722,Trim254,這些轉座子分別占到基因組的10.12%、9.07%、8.59%和10.61%。共計1728條序列形成了Nested形式,占總序列條數的44.4%(1728/2892)。
  

20、2、對tRNA使用偏好性分析發(fā)現,不同超家族的PBS結合的tRNA具有偏好性,在基因組中含量最高的tRNA,在LTR的轉錄過程當中使用頻率卻不是最高的。其中tRNAMet使用率最高,在Copia、Gypsy、Lard以及Trim中的使用率分別達到41.2%、28.0%、13.9%以及27.2%。
  3、序列特征分析發(fā)現,幾乎所有鑒定到的全長LTR均具有典型的TG-CA結構特征。LTR逆轉錄轉座子序列的全長與該序列的LTR長度具有

21、正相關性(r=0.343,p<0.01),即更長的序列具有更長的LTR序列。對Nested LTR與LTR逆轉錄轉座子的比較分析發(fā)現,每個超家族內的Nested LTR比例與該超家族序列的平均長度呈現強烈的正相關關系(r=0.963,p<0.01),認為正是由于形成了Nested LTR的結構,從而導致該超家族序列長度變長。
  4、對Copia和Gypsy的RT、INT序列進行系統(tǒng)發(fā)生分析結果表明,單純依靠RT、INT序列的相似

22、性就能夠將Copia和Gypsy兩大類超家族區(qū)分開,而且基于RT的系統(tǒng)樹與基于INT的系統(tǒng)樹呈現相似的結構,該結果進一步說明在Copia和Gypsy的進化過程當中經歷過一次序列顛換,從而形成Copia和Gypsy。我們最終認為是Copia在進化過程當中出現了序列內部重組,導致了其RT和INT序列結構域的顛換,顛換之后,Copia和Gypsy各自沿著自己的方向進化。選取了已有分類的Copia和Gypsy主要枝系的代表序列與桑樹的Copia

23、和Gypsy的RT序列進行系統(tǒng)發(fā)生分析,結果顯示桑樹當中的序列均可以劃分到已有分枝,進一步說明了已有的Copia和Gypsy的主要枝系在植物中是廣泛存在的。
  5、我們選取Copia和Gypsy的RT序列進行選擇壓力分析,結果表明兩者均受到較強的凈化選擇壓力,然而部分家族的序列dN/dS的比例大于1,該結果暗示了可能這些家族序列在基因組中出現了適應性進化。
  6、對LTR逆轉錄轉座子插入時間分析發(fā)現,Copia和Gyps

24、y的分布規(guī)律比較一致,均在最近的1百萬年到二百萬年間有一個爆發(fā)擴增的現象,95%左右的轉座子均在最近的三百萬年內插入到桑樹基因組中。Lard和Trim的插入時間分布則較為散亂,不過在最近的1-2百萬年內同樣存在一個高峰,大多還是集中在最近的三百萬年內插入到桑樹基因組中(Lard,77.1%;Trim,90.2%)。我們對半衰期的估計發(fā)現,桑樹中LTR逆轉錄轉座子的頻數分布不遵從負指數分布,該結果暗示了桑樹中的LTR逆轉錄轉座子可能具有不

25、同于其他物種的進化歷程,呈現出不規(guī)律的分布,該規(guī)律有待進一步通過與其余物種的比較分析。Nested LTR逆轉錄轉座子插入桑樹基因組的時間是在一個比較分散的區(qū)間之內,通過分析不同時間區(qū)間內,NestedLTR和全長LTR逆轉錄轉座子的分布平度發(fā)現,兩者之間具有極強的正相關性(r=0.989,p<0.01)。最終結果表明在每個時間段,一個LTR逆轉錄轉座子的新拷貝形成Nested轉座子的概率和重新插入基因組中新的獨立位置的概率幾乎一樣,不

26、存在偏好性。
  7、分析有活性的LTR逆轉錄轉座子拷貝數及表達情況,結果表明LTR逆轉錄轉座子有無活性與其在基因組上的拷貝數并沒有直接的關系。即有活性的轉座子有可能剛開始表現出活性,其在基因組上的拷貝數依然較少;或者已經具有多拷貝數的轉座子已失去活性,只保留下了自身的一些拷貝。
  8、全長 LTR逆轉錄轉座子中存在的Nested LTR之間存在一個有趣的現象。即Nested LTR數目占總全長LTR逆轉錄轉座子數目的44

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論