生物信息學(xué) - 浙江大學(xué)郵件系統(tǒng)_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、普通高等教育“十二五”規(guī)劃教材生物信息學(xué)Bioinformatics,第二章 生物學(xué)數(shù)據(jù)庫及其檢索,第一節(jié) 生物數(shù)據(jù)庫簡介,什么是數(shù)據(jù)庫數(shù)據(jù)庫類型生物學(xué)數(shù)據(jù)庫重要的生物信息站點(diǎn),一、什么是數(shù)據(jù)庫,數(shù)據(jù)庫(database)是一類用于存儲和管理數(shù)據(jù)的計(jì)算機(jī)文檔,是統(tǒng)一管理的相關(guān)數(shù)據(jù)的集合。其存儲形式有利于數(shù)據(jù)信息的檢索與調(diào)用。數(shù)據(jù)庫開發(fā)的主要任務(wù)就是將數(shù)據(jù)以結(jié)構(gòu)化記錄的形式進(jìn)行組織以便于信息的檢索。數(shù)據(jù)庫的每一條記錄(rec

2、ord),也可以叫做條目(entry),則包含了多個(gè)描述某一類的數(shù)據(jù)特性或?qū)傩缘淖侄?field),比如基因名,來源物種,序列的創(chuàng)建日期等,這也是數(shù)據(jù)結(jié)構(gòu)化的基礎(chǔ);而值(value)則是指每個(gè)記錄中某個(gè)字段的具體內(nèi)容。,二、數(shù)據(jù)庫的類型,到目前為止,生物學(xué)數(shù)據(jù)庫使用了4種不同的數(shù)據(jù)庫結(jié)構(gòu)類型:平面文件、關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和基于Internet平臺的XML。,三、生物學(xué)數(shù)據(jù)庫,根據(jù)存放數(shù)據(jù)類型的不同,可以分為序列(如GenBan

3、k, SWISSPROT等)、(三維)結(jié)構(gòu)(如PDB)、文獻(xiàn)(如NCBI的PubMed)、序列特征(如PROSITE, Pfam等)、基因組圖譜(如MapViewer, Ensembl等)、表達(dá)譜等多種數(shù)據(jù)庫,每一種還可以進(jìn)行更細(xì)致層次的劃分。而根據(jù)數(shù)據(jù)庫存儲的具體內(nèi)容則還可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫(primary and secondary databases)以及用戶針對性更強(qiáng)的專用數(shù)據(jù)庫(specialized databas

4、es) 。,一級數(shù)據(jù)庫和二級數(shù)據(jù)庫,一級數(shù)據(jù)庫主要內(nèi)容是來源于實(shí)驗(yàn)室操作所得到的原始數(shù)據(jù)結(jié)果(如測序得到的序列或經(jīng)過X射線晶體衍射所得到的三維結(jié)構(gòu)數(shù)據(jù)等),包含一些基本的說明(如序列所屬的物種、類型、序列發(fā)表的文獻(xiàn)出處等)。如GenBank、DDBJ、EMBL以及PDB(Protein Data Bank)等二次數(shù)據(jù)庫則是在一次數(shù)據(jù)庫的信息基礎(chǔ)上進(jìn)行了計(jì)算加工處理并增加了許多人為的注釋而構(gòu)成的。比如NCBI的RefSeq數(shù)據(jù)庫,其mR

5、NA序列是綜合了GenBank中來源于同一物種相同基因的所有mRNA序列信息的一致性序列(consensus sequence),如何查找與研究相關(guān)的生物學(xué)資源,公共搜索引擎 重要的生物信息學(xué)門戶站點(diǎn) 《核酸研究》每年的數(shù)據(jù)庫專輯/網(wǎng)絡(luò)服務(wù)器專輯,四、重要的生物信息站點(diǎn),NCBI--美國國家生物技術(shù)信息中心EBI—?dú)W洲生物信息研究所 EMBnet — 歐洲分子生物學(xué)信息網(wǎng)絡(luò),NCBI,NCBI(http://www.ncbi.n

6、lm.nih.gov), 全稱為National Center for Biotechnology Information,建立于1988年11月4日,下屬于美國國立衛(wèi)生研究院(National Institutes of Health,簡稱NIH)的國立醫(yī)學(xué)圖書館(National Library of Medicine,簡稱NLM)。中心的主要任務(wù)是創(chuàng)建公共可接入數(shù)據(jù)庫,引導(dǎo)在計(jì)算生物學(xué)以及在基因組數(shù)據(jù)分析方面的軟件開發(fā),同時(shí)發(fā)布各

7、類生物醫(yī)學(xué)信息。 NCBI的數(shù)據(jù)資源主要包括數(shù)據(jù)庫、分析工具、數(shù)據(jù)提交及教育四個(gè)部分,每個(gè)部分的資源都有更為細(xì)致的分類,EBI,EBI(http://www.ebi.ac.uk),全稱是European Bioinformatics Institute,是隸屬于歐洲分子生物學(xué)研究室(EMBL)的一個(gè)非盈利性的學(xué)術(shù)機(jī)構(gòu),專門從事生物信息學(xué)方面的研究與服務(wù)。EBI的主要任務(wù)包括為科研團(tuán)體免費(fèi)提供數(shù)據(jù)及生物信息學(xué)服務(wù);從生物信息學(xué)的角度上為

8、推動特定科研項(xiàng)目的發(fā)展做出努力,為各階層的科研人員提供高級生物信息學(xué)培訓(xùn)以及幫助向工業(yè)界發(fā)布最新技術(shù)等。EBI的網(wǎng)站在數(shù)據(jù)規(guī)模與承擔(dān)的任務(wù)方面都與NCBI相當(dāng),其資源也分為數(shù)據(jù)庫、工具、EBI研究小組、培訓(xùn)、幫助等幾個(gè)部分,而全部資源及工具則顯示在其Site Index頁面(http://www.ebi.ac.uk/Information/sitemap.html)中。,EMBnet,EMBnet (European Molecular

9、 Biology Network)建立于1988年,由多個(gè)位于歐洲及歐洲以外的成員國節(jié)點(diǎn)及專業(yè)節(jié)點(diǎn)組成。除了上面提到的歐洲生物信息學(xué)研究所EMBL-EBI,瑞士生物信息研究所SIB、澳大利亞國家基因組學(xué)信息服務(wù)(AGRIS)以及中國北京大學(xué)的生物信息中心PKU-CBI都是EMBnet的成員。它們不僅為本國用戶提供生物信息資源及生物計(jì)算服務(wù),同時(shí)提供用戶支持、培訓(xùn)以及進(jìn)行相關(guān)的生物信息研究與開發(fā)。比如專業(yè)蛋白質(zhì)分析系統(tǒng)ExPASy就是由S

10、IB開發(fā)及維護(hù),而通用蛋白質(zhì)資源UniProt則由EMBL-EBI及SIB、PIR共同進(jìn)行維護(hù)的。由于EMBnet的成員國節(jié)點(diǎn)及專業(yè)節(jié)點(diǎn)各自包含了大量的公共數(shù)據(jù)信息及自行開發(fā)的數(shù)據(jù)庫及分析工具,因此可作為生物學(xué)數(shù)據(jù)資源的補(bǔ)充來源。相關(guān)信息可以從http://www.embnet.org/en/members/National 和http://www.embnet.org/en/members/Specialist中查到。,第二節(jié) 生物學(xué)

11、數(shù)據(jù)庫的內(nèi)容與結(jié)構(gòu),數(shù)據(jù)存儲基礎(chǔ)平面文件格式序列格式XML格式關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)存儲基礎(chǔ),信息是存儲在計(jì)算機(jī)臨時(shí)或永久存儲器中的一串字節(jié)。 獲取信息需要控制兩個(gè)方面。第一是數(shù)據(jù)被編譯為字節(jié)的方式,或者成為數(shù)據(jù)格式。第二是運(yùn)用哪些程序能夠編碼(寫)和解碼(讀)這些數(shù)據(jù) 。目前最常用的格式類型:平面文件格式、XML和關(guān)系型數(shù)據(jù)庫,平面文件格式—Flat File,這種格式是將多個(gè)記錄以特殊約定的分隔符(比如“/” 或“|”)進(jìn)行

12、區(qū)分,而每一個(gè)記錄內(nèi)的眾多字段也是通過一些特定的分隔符(如“,”或“:”)加以區(qū)分。數(shù)據(jù)庫文件就是由這些字段及內(nèi)容所組成,并不包含什么隱藏的計(jì)算機(jī)指令。 優(yōu)點(diǎn):通用性(跨平臺) ;容易為perl程序進(jìn)行解析和處理;專用的flat-file數(shù)據(jù)分析器可以用來將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)管理系統(tǒng)。 缺點(diǎn):檢索復(fù)雜,冗余字段較多,大容量數(shù)據(jù)庫難以處理,Flatfile 格式(UniProt CYC_HUMAN 部分),Perl的正則表達(dá)式可用于解析F

13、latfile格式文件,my $newEntry = 1;while() {my($line) = $_;chomp($line);if($line =~ /^ID/) {# matched ID line$newEntry=1;}if($line =~ /^AC\s*(\w+)/) {# matched AC lineif ($newEntry==1) {# print only when at first li

14、neprint "Primary accession " . $1;}$newEntry=0;}if($line =~ /^SQ\s*\w*\s*(\w*)/) {# match SQ lineprint " sequence length: " . $1 . "\n";}# ignore other lines}例程輸出:> perl examp

15、le.pl < uniprot.datPrimary accession Q4U9M9 sequence length: 893Primary accession P15711 sequence length: 924Primary accession Q43495 sequence length: 102Primary accession P18646 sequence length: 75Primary access

16、ion P13813 sequence length: 296………,三、序列格式,序列格式主要在布局和序列碼行的形成上不同,而一些格式同時(shí)提供描述或元數(shù)據(jù)或行集。 對于許多軟件工具來說,它們能很自然地自動區(qū)分和接受不同格式的序列常用格式:Fasta;GenBank;SwissProt等,XML格式,XML(可擴(kuò)展標(biāo)記語言)是一種在文本文件中組織數(shù)據(jù)的語言。 一個(gè)XML文件代表一個(gè)嵌套的信息樹。樹中的每一個(gè)節(jié)點(diǎn)能包含像一串子節(jié)點(diǎn)

17、或者一些屬性這樣的數(shù)據(jù),并且一個(gè)XML文件始于根節(jié)點(diǎn)。一個(gè)XML文件有一個(gè)文本,在文本中每一個(gè)節(jié)點(diǎn)的內(nèi)容及其子節(jié)點(diǎn)被一對相互封閉的標(biāo)簽劃定。形式上類似html。,XML文檔的結(jié)構(gòu),XML文檔的結(jié)構(gòu)是根據(jù)一種文件類型定義(DTD)組織的。一個(gè)DTD定義了一類遵從一系列規(guī)則的XML文檔。這些規(guī)則中包括例如一個(gè)節(jié)點(diǎn)中有多少個(gè),怎樣類型,怎樣組織的子節(jié)點(diǎn)。一個(gè)DTD是通過一個(gè)文件類型聲明與XML文檔聯(lián)系在一起的,這個(gè)聲明指出了這個(gè)XML文檔是依

18、附于結(jié)構(gòu)由該DTD定義的文檔類。一個(gè)DTD是通過XML確定其特殊性的,在這個(gè)XML文檔里可能直接包含了關(guān)于類型的聲明。為了更方便,DTD是以獨(dú)立文件的形式進(jìn)行存儲和調(diào)用的。,10697468[… … … …]0099-2399161975JunJournal of endodonticsMethodology and criteria in the evaluation of dental implant

19、s.[………….],來自MEDLINE的XML例子(部分),[…………..]<!ATTLIST ISSNIssnType (Electronic | Print | Undetermined) #REQUIRED,上例中XML的文件類型定義(DTD)(部分),XML的優(yōu)勢,XML依照國際標(biāo)準(zhǔn)設(shè)計(jì),所以事實(shí)上它具備作為計(jì)算機(jī)通用語言的主要優(yōu)點(diǎn)。幾乎現(xiàn)在每種編程環(huán)境中都包括了讀取和存取XML格式數(shù)據(jù)

20、的工具和庫。文檔對象模型(DOM)是XML文檔的一種概念表征。它是一個(gè)數(shù)據(jù)以樹狀存儲于XML文檔的軟件模型。從XML文檔“翻譯”成一個(gè)DOM的過程是標(biāo)準(zhǔn)化且容易理解的。許多復(fù)雜度,性能,標(biāo)準(zhǔn)支持不同的實(shí)現(xiàn)方式都已問世。 一些最常見的軟件工具,比如網(wǎng)絡(luò)瀏覽器,提供了XML的無縫整合和DOM水平的編程支持。相似的,絕大部分的文檔管理系統(tǒng)、搜索引擎都可以以DOM兼容的方式從XML文件中索引,搜索,回收信息。 XML作為一種數(shù)據(jù)格式被廣泛

21、的用于生物信息學(xué)中。,五、關(guān)系型數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫是由根據(jù)特定的關(guān)系模型組織的一系列數(shù)據(jù)表格構(gòu)成。 每個(gè)表格都包括字段和相應(yīng)的值(列和行)。至少一個(gè)共有的字段可以把每個(gè)表格鏈接起來,這個(gè)字段稱為鍵(key)數(shù)據(jù)庫的結(jié)構(gòu)往往用鏈接不同表格的形式顯示。,引物數(shù)據(jù)庫relational schema,關(guān)系型數(shù)據(jù)庫管理系統(tǒng),目前常用的有Oracle,MySQL,Microsoft SQL Sever等 以SQL語句進(jìn)行查詢以MySQL

22、為例構(gòu)建數(shù)據(jù)庫見課本第十一章第三節(jié)“SQL及數(shù)據(jù)庫編程”,SQL例子,Gene_Table,SELECT GName, EValue, Organism FROM Gene_Table WHERE EValue < 1.0,查詢結(jié)果:,第三節(jié) 生物數(shù)據(jù)庫檢索,NCBI EntrezEBI SRS,(一)Entrez,Entrez系統(tǒng)是由NCBI開發(fā)并提供維護(hù)的,它是目前應(yīng)用最為廣泛的生物學(xué)數(shù)據(jù)庫檢索系統(tǒng)之一。它充分利用了眾

23、多公共數(shù)據(jù)庫各個(gè)記錄之間本身就存在的邏輯關(guān)系,從而從多種類型數(shù)據(jù)的文本信息中找到所需的信息。 NCBI數(shù)據(jù)庫之間存在硬鏈接(hard link)各數(shù)據(jù)庫內(nèi)部數(shù)據(jù)間存在軟連接(soft link),又稱neighbor。是指預(yù)先運(yùn)算好的與某記錄相似的其他記錄。,ENTREZ數(shù)據(jù)庫模型(2004),Entrez檢索,全局檢索精確檢索批量檢索My NCBI,全局檢索,Global Search (http://www.ncbi.nl

24、m.nih.gov/gquery/) 該檢索方法可對檢索詞進(jìn)行多個(gè)數(shù)據(jù)庫的寬泛檢索,但檢索結(jié)果不精確。精確檢索須針對特定數(shù)據(jù)庫采用特殊方法進(jìn)行查詢。,ENTREZ的全局檢索頁面,精確查詢,布爾邏輯表達(dá)式: AND OR NOT限制(limit):包括字段限制、數(shù)據(jù)庫來源限制等;不同數(shù)據(jù)庫限制類型不同高級檢索:可利用搜索構(gòu)造器進(jìn)行多詞多字段檢索,并可利用檢索歷史進(jìn)行配合。通配符使用:“*” 如“hor*”范圍符使用:“:” 時(shí)間

25、、序列長度、分子量等。如2005:2012[date] 5000:10000[sequence length],字段限定,范圍限定,PUBMED限制檢索頁面,蛋白質(zhì)數(shù)據(jù)庫高級檢索頁面,批量檢索,Batch Entrez(http://www.ncbi.nlm.nih.gov/sites/batchentrez?) 通過上傳包含有核酸或蛋白質(zhì)數(shù)據(jù)庫的GI號或accession numbers的文本文件,一次顯示所有查詢條目,這對一些高

26、通量數(shù)據(jù)的查詢提供便利。,My NCBI,NCBI提供的人性化服務(wù),其功能有:保存數(shù)據(jù)保存檢索歷史并定期返回檢索的新數(shù)據(jù)(Email)對檢索的數(shù)據(jù)可自定義過濾選項(xiàng),(二)SRS,SRS 是一種通用的生物信息學(xué)數(shù)據(jù)集成軟件系統(tǒng) SRS使用專有的解析技術(shù),對flat-flie格式數(shù)據(jù)的解析和索引并與DOM處理結(jié)合的另一種類似的系統(tǒng)用于分析和索引XML格式的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫連接器可用于集成關(guān)系數(shù)據(jù)庫系統(tǒng)中存儲的數(shù)據(jù)。SRS的提供了一

27、個(gè)獲取獨(dú)特的異構(gòu)數(shù)據(jù)源的通用接口以及關(guān)聯(lián)實(shí)際格式和數(shù)據(jù)存儲機(jī)制的復(fù)雜性旁路。SRS可以不同數(shù)據(jù)庫的參照的文本格式并將其整合成為統(tǒng)一的模式。,SRS檢索方法,快速文本檢索批量檢索標(biāo)準(zhǔn)查詢擴(kuò)展查詢搜索式查詢字段索引查詢,快速文本檢索,該方法檢索詞將與檢索的數(shù)據(jù)庫中所有字段匹配 ,檢索結(jié)果精確度較差。,,SRS快速文本檢索界面,批量檢索,List Search 與Batch entrez檢索類似;檢索類型須符合DATABAS

28、E:ID模式,如:EMBL:AB046566或UNIPROT:104K_THEAN列舉條目不超過500條。,SRS的list search界面,標(biāo)準(zhǔn)查詢,檢索前須確定一個(gè)或多個(gè)數(shù)據(jù)庫。有四個(gè)檢索框并可由布爾邏輯(and ,or,not)進(jìn)行關(guān)聯(lián)。 檢索框中可進(jìn)行單個(gè)詞或多個(gè)詞檢索 多詞間的布爾邏輯符號為&,|,!分別對應(yīng)and,or,not對于數(shù)字和日期 SRS使用數(shù)字化的條目對日期,條目的序列、分子量等長度進(jìn)行具有針對

29、性的搜索。,Uniprot/swissprot數(shù)據(jù)庫標(biāo)準(zhǔn)查詢表單模式,范圍操作符,數(shù)字化條目可以使用不同的操作符結(jié)合到表達(dá)式中。這些操作符是:小于;小于或等于;大于以及大于或等于。以上這些可以通過結(jié)合冒號:和感嘆號! 來實(shí)現(xiàn)。冒號代表不等于,冒號在數(shù)字的前或后代表了是大于還是小于。感嘆號表示的是在其右邊的數(shù)字是否被包括在考慮范圍內(nèi)。也就是說感嘆號可以被視為“非”或“不等于”。下面是幾個(gè)簡單的例子:12:15

30、 大于或等于12但是小于或等于15.12: 大于或等于12,無明確上限。!12: 大于但不等于12,無明確上限。:12 小于或等于12,無明確下限。:!12 小于但不等于12,無明確下限。,正則表達(dá)式和通配符應(yīng)用,正則表達(dá)式可用于搜索不同拼

31、寫的單詞,或者相同詞根不同詞綴的單詞 。如“/^phos/”會找到所有以“phos”開頭的詞(如phosphate, phosphorylase),“/ase$/”會找到所有以“ase”結(jié)尾的詞(如kinase, phosphatase)。 使用“*”和“?”通配符 。如,“cell*ase”會找到所有以“cell”開頭并以“ase”結(jié)尾的詞(如cellobiase, cellobiohydrolase, cellulase)。,擴(kuò)展

32、查詢,將查詢數(shù)據(jù)庫所有字段列舉顯示出來,并可應(yīng)用標(biāo)準(zhǔn)查詢中的檢索框檢索的所有功能。范圍檢索可直接用下拉菜單中選取操作符。,查詢展開式顯示使用下拉菜單完成數(shù)字類型數(shù)據(jù)的設(shè)置。,搜索式查詢,在“查詢結(jié)果”頁面,在“運(yùn)用搜索式查詢”文本框中輸入你要查詢的內(nèi)容。點(diǎn)擊檢索鍵。例如,搜索同時(shí)符合兩項(xiàng)查詢Q1和Q2的結(jié)果,可以輸入Q1&Q2。這會產(chǎn)生一個(gè)新的列表Q3,它包含所有同時(shí)存在于Q1和Q2列表中的條目。如果你想在查詢結(jié)果Q3中搜索與

33、SWISS-RPOT數(shù)據(jù)庫鏈接的條目,可以輸入Q3<SWISSPROT。典型的操作符可以使標(biāo)準(zhǔn)的邏輯函數(shù)(& (AND), | (OR), ! (BUT NOT)將不同的搜索結(jié)合起來,尋找結(jié)果集之間的聯(lián)系。,搜索式查詢界面,字段索引檢索,通過對特定數(shù)據(jù)庫的特定字段,進(jìn)行文本匹配后,選擇進(jìn)行查詢。例如,要尋找swiss-prot數(shù)據(jù)庫所有ID號以il8開頭的條目,則在databank或library page標(biāo)簽頁面找到Un

34、iPortKB/swiss-prot,并進(jìn)一步找到ID字段并打開。檢索框“*”號前鍵入il8,點(diǎn)擊List value,便可顯示所有以il8開頭的ID號,然后根據(jù)需要在選擇框內(nèi)鉤取所需條目,點(diǎn)擊make query便可得到所需結(jié)果。,字段索引檢索界面(Swiss-prot數(shù)據(jù)庫的ID字段),SRS8.3新特點(diǎn),全新界面增加提醒(alert)功能 增加了注釋功能對工作流(workflow)的支持。新版本的SRS 可利用KDE通過強(qiáng)大

35、的APIs進(jìn)入幾百個(gè)數(shù)據(jù)庫和分析工具。用戶可迅速建立工作流而不必像以往只能針對單個(gè)數(shù)據(jù)庫和工具 SRS 現(xiàn)支持RedHat AS/ES 4.0 (32 和64-bit 版本), Java 1.5 and 1.6。更方便的實(shí)現(xiàn)多個(gè)相關(guān)連數(shù)據(jù)庫的同屏顯示,SRS的8.3版本主頁(http://bips.u-strasbg.fr/srs83/),全新的SRS8.3檢索向?qū)?。以概念(concept)-數(shù)據(jù)庫模式。,作業(yè),查找2012年核酸研

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論