-
簡介:漢語語音合成是近年來語音處理領(lǐng)域內(nèi)比較熱門的研究方向是當(dāng)今人工智能領(lǐng)域的研究熱點(diǎn)目前它越來越廣泛地應(yīng)用于社會(huì)生活的各個(gè)方面提高了人機(jī)交互性發(fā)揮了很好的社會(huì)效益該論文首先簡要回顧了語音合成的發(fā)展歷史指出了將來語音合成的發(fā)展方向以及漢語語音合成的意義等然后介紹了語音信號(hào)處理的基礎(chǔ)知識(shí)包括現(xiàn)代語音學(xué)和語音信號(hào)產(chǎn)生的數(shù)學(xué)模型并且介紹了現(xiàn)在出現(xiàn)的各種語音合成技術(shù)和漢語語音的一些特點(diǎn)最后著重討論了語音合成的理論探索和利用線性預(yù)測合成LPC技術(shù)具體實(shí)現(xiàn)漢語語音合成在該文中作者對語音信號(hào)處理的過程和方法進(jìn)行了一些研究利用語音信號(hào)產(chǎn)生的物理模型用LPC技術(shù)對這個(gè)物理模型加以抽象得到語音信號(hào)產(chǎn)生的數(shù)學(xué)模型由一組周期信號(hào)或者高斯白噪聲激勵(lì)一個(gè)全極點(diǎn)濾波器而得到語音信號(hào)的數(shù)學(xué)模型同時(shí)作者利用LPC技術(shù)建立了一個(gè)線性預(yù)測模型并用自相關(guān)法求解獲得預(yù)測系數(shù)LPC系數(shù)和基音周期的檢測最后實(shí)現(xiàn)了基于線性預(yù)測LPC的漢語語音合成
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 72
大小: 1.98(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 95
大小: 20.15(MB)
子文件數(shù):
-
簡介:近年來,隨著語音識(shí)別理論研究的深入和數(shù)字信號(hào)處理軟、硬件技術(shù)的發(fā)展,語音識(shí)別技術(shù)的研究越來越受到人們的關(guān)注。另外,嵌入式技術(shù)的發(fā)展,使嵌入式語音識(shí)別技術(shù)成為語音識(shí)別領(lǐng)域發(fā)展的重要方向。本文簡要介紹了語音識(shí)別技術(shù)的基本知識(shí),給出了語音識(shí)別的系統(tǒng)模型,對模型中涉及的算法進(jìn)行了重點(diǎn)的研究和實(shí)現(xiàn)。另外,論文對嵌入式語音識(shí)別系統(tǒng)也做了相應(yīng)的研究和實(shí)現(xiàn),并對語音識(shí)別技術(shù)的發(fā)展方向提出了展望。語音識(shí)別算法的研究與實(shí)現(xiàn)是本文的重點(diǎn)。根據(jù)語音識(shí)別系統(tǒng)的基本模型,論文對語音信號(hào)的預(yù)處理、特征提取和識(shí)別算法做了深入的研究,并在PC機(jī)上用MATLAB語言、動(dòng)態(tài)時(shí)間規(guī)整識(shí)別算法設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)特定人、小詞匯量、孤立詞語音識(shí)別系統(tǒng)。另外,論文對PC機(jī)上的語音識(shí)別系統(tǒng)用C語言進(jìn)行了實(shí)現(xiàn),并將新系統(tǒng)應(yīng)用在XSBASE開發(fā)平臺(tái)上,進(jìn)行了嵌入式語音識(shí)別技術(shù)的研究。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 76
大小: 2.69(MB)
子文件數(shù):
-
簡介:語言文字是信息的主要載體,現(xiàn)代社會(huì)對語言文字處理的要求越來越高。中文信息處理技術(shù)也隨著計(jì)算機(jī)和因特網(wǎng)普及應(yīng)用,面臨著新的更大的挑戰(zhàn)和機(jī)遇,語言文本處理的研究成為其中基礎(chǔ)而關(guān)鍵的問題之一。全文相似度計(jì)算技術(shù)在自動(dòng)文摘、知識(shí)挖掘、機(jī)器翻譯、自動(dòng)問答系統(tǒng)、信息檢索及文檔復(fù)制檢測等領(lǐng)域有著廣泛實(shí)際的應(yīng)用。漢語全文相似度的計(jì)算包含詞語的切分、詞語語義及概念的研究、短語和句型的研究、語料庫的建設(shè)、語言規(guī)則的研究等方面的內(nèi)容。由于漢語本身的復(fù)雜性和進(jìn)化性,漢語全文相似度的計(jì)算仍處在應(yīng)用起步階段,鑒于信息處理在國家信息化建設(shè)中的重要地位,對全文相似度計(jì)算進(jìn)行深入的研究是非常必要的。針對目前全文相似度計(jì)算存在的問題,將基于統(tǒng)計(jì)方法和語言規(guī)則方法相融合來處理專門領(lǐng)域的問題是一個(gè)非常重要的趨勢,本文做了以下的研究和探索1在文本句子層面,總結(jié)了國內(nèi)外句子相似度計(jì)算方法的研究成果,分析了存在的問題和不足,在基于知網(wǎng)計(jì)算詞語相似度的基礎(chǔ)上,給出了句子相似度計(jì)算綜合公式,研究了否定副詞在句子相似度計(jì)算中的作用,設(shè)計(jì)了一種含有否定副詞的句子相似度計(jì)算方法,通過實(shí)驗(yàn)證明,新算法在句子相似度計(jì)算中具有較好的效果。2在文章層面,對全文相似度計(jì)算做了全面的分析和研究,總結(jié)了幾種主要的全文相似度計(jì)算方法的優(yōu)缺點(diǎn),重點(diǎn)研究了基于向量空間模型的全文相似度計(jì)算方法,比較了幾種常見的特征選擇算法效果和應(yīng)用范圍。3深入研究了具有一定結(jié)構(gòu)形式的文章間相似度計(jì)算問題,設(shè)計(jì)了一種文章結(jié)構(gòu)層次模型,將文章按照結(jié)構(gòu)劃分為句子、文章塊和短文本三個(gè)層次。在此模型基礎(chǔ)上,提出了一種基于文章結(jié)構(gòu)層次的相似度算法,融合了句子、文章塊和短文本相似度計(jì)算方法,并將其應(yīng)用在全文相似度對比組件中。該方法結(jié)合了自然語言處理中基于統(tǒng)計(jì)方法和語言規(guī)則方法的優(yōu)點(diǎn),提高了計(jì)算結(jié)果的質(zhì)量,具有較高的理論和應(yīng)用價(jià)值。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 79
大小: 1.82(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 68
大小: 7.2(MB)
子文件數(shù):
-
簡介:目前,漢語連續(xù)語音識(shí)別在純凈語音環(huán)境下,已經(jīng)取得了較好的識(shí)別效果。但在自然環(huán)境下,由于各種噪聲的影響,識(shí)別率依然很低,還不能滿足實(shí)際場合的應(yīng)用要求。因此帶噪環(huán)境的連續(xù)語音識(shí)別一直是當(dāng)前語音信號(hào)研究的熱點(diǎn)和難點(diǎn)。HMM模型是連續(xù)語音識(shí)別中應(yīng)用最廣泛的模型之一,但模型的訓(xùn)練往往是在安靜的實(shí)驗(yàn)室環(huán)境下完成的,因此訓(xùn)練模型無法有效描述自然環(huán)境下實(shí)際語音信號(hào)的特點(diǎn)。噪音干擾使端點(diǎn)檢測的準(zhǔn)確性也大為降低,系統(tǒng)識(shí)別率也隨之下降。除此之外,漢語連續(xù)語音識(shí)別中識(shí)別基元的選取,模型的上下文相關(guān),都對識(shí)別率有較大的影響。為了提高帶噪環(huán)境下語音識(shí)別系統(tǒng)的性能,本文根據(jù)連續(xù)語音識(shí)別的基本原理,針對帶噪環(huán)境的特點(diǎn),對語音識(shí)別算法進(jìn)行了一些研究,具體工作如下1研究了一種改進(jìn)的基于譜減的語音增強(qiáng)算法,該算法解決了基本譜減法的“音樂噪聲“問題;采用基于自適應(yīng)子帶譜熵的端點(diǎn)檢測算法,并將它與改進(jìn)的譜減語音增強(qiáng)相結(jié)合,進(jìn)一步提高了帶噪環(huán)境下語音端點(diǎn)檢測的準(zhǔn)確率。2介紹了一些常用語音特征的提取算法如反映人類聲道信息的LPCC,具有抗噪性能的MFCC;提出了一種基于線性預(yù)測與歸一化互相關(guān)的基音特征提取算法,該算法提高了帶噪環(huán)境基音檢測的性能。3討論了HMM模型的基本原理,并對HMM的三個(gè)基本問題前后向算法,VITERBI算法,BAUMWEICH算法做了詳細(xì)介紹;同時(shí)對HMM應(yīng)用中的HMM初始模型選取、溢出問題以及模型的合并也做了深入的探究。4針對漢語連續(xù)語音識(shí)別系統(tǒng)中聲學(xué)模型的訓(xùn)練,發(fā)音協(xié)同等問題,對聲學(xué)模型中識(shí)別基元選取、聲學(xué)模型的嵌入式訓(xùn)練以及上下文相關(guān)的三音素模型等做了進(jìn)一步的研究;最后,采用HTK工具箱進(jìn)行了一系列的實(shí)驗(yàn)分析。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 68
大小: 0.76(MB)
子文件數(shù):
-
簡介:本文根據(jù)漢語自身的特點(diǎn),及不同漢語語塊具有的不同敏感特征,從多AGENT理論入手,進(jìn)行了基于多AGENT策略的漢語語塊模型的探索。本文研究從以下幾個(gè)方面展開1、對比分析了四種傳統(tǒng)主流語塊識(shí)別模型在漢語識(shí)別中的性能,從理論和實(shí)驗(yàn)結(jié)果兩方面研究了這些模型的特點(diǎn),揭示了造成這些模型在識(shí)別英語和漢語時(shí)性能差異的原因。明確了當(dāng)前漢語語塊識(shí)別的主要問題。2針對漢語語塊識(shí)別特征靈活和語料規(guī)模較小的現(xiàn)狀,提出了一種基于多AGENT策略的漢語語塊識(shí)別模型。此外,本文還對漢語語塊識(shí)別中關(guān)鍵的名詞語塊的識(shí)別提出了詞性串規(guī)則結(jié)合邊界統(tǒng)計(jì)的算法,最終得到了較好的識(shí)別結(jié)果。3在利用各種不同的敏感特征識(shí)別語塊時(shí),對最優(yōu)規(guī)則集進(jìn)行總結(jié),并規(guī)劃解綜合的結(jié)構(gòu)。最后,綜合運(yùn)用本文所研究的各種方法,實(shí)現(xiàn)了一個(gè)支持基于多AGENT策略的漢語語塊識(shí)別系統(tǒng)。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 59
大?。?1.62(MB)
子文件數(shù):
-
簡介:高自然度的語音合成是人機(jī)交互領(lǐng)域的一個(gè)重要研究課題。為提高合成語音的自然度,需要知道準(zhǔn)確的合成文本的韻律結(jié)構(gòu)。為此,論文分析了漢語文本的語法結(jié)構(gòu)與韻律結(jié)構(gòu)之間的關(guān)系,重點(diǎn)研究了韻律詞和韻律短語的預(yù)測。論文的研究結(jié)果對于揭示文本與語音之間的關(guān)系、提高合成語音的自然度具有重要的理論意義和應(yīng)用價(jià)值。論文的主要研究成果和創(chuàng)新點(diǎn)如下1建立了一個(gè)大規(guī)模的文本語料庫。該語料庫包含20000句文本語料,標(biāo)注了語法信息和韻律信息。韻律信息在語言學(xué)專家的指導(dǎo)下手工標(biāo)注。完成的語料庫經(jīng)過了語言學(xué)專家的抽查,并與語言學(xué)專家標(biāo)注結(jié)果進(jìn)行了對比。結(jié)果表明,手工標(biāo)注的韻律詞和韻律短語的綜合參數(shù)得分分別達(dá)到了98%和85%,可用于韻律結(jié)構(gòu)預(yù)測的研究中。2提出了一種以相鄰語法詞詞長和詞性為特征,利用TBL算法進(jìn)行韻律詞預(yù)測的方法。通過對手工標(biāo)注過的語料庫進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)相鄰語法詞長和相鄰語法詞詞性是從語法詞映射到韻律詞的主要特征?;谶@一特征,利用TBL轉(zhuǎn)換學(xué)習(xí)算法進(jìn)行了韻律詞的預(yù)測。結(jié)果表明,該方法在測試集上分別得到了975%的精確率、召回率以及綜合參數(shù),優(yōu)于現(xiàn)有的研究結(jié)果。3提出了一種新的用于韻律結(jié)構(gòu)預(yù)測的語法結(jié)構(gòu)描述特征鄰接度(ADJACENTDEGREE,AD),利用鄰接度描述了語法結(jié)構(gòu)和韻律結(jié)構(gòu)之間的關(guān)系?;卩徑佣冗@一新特征,利用TBL算法進(jìn)行了韻律短語的預(yù)測。測試集上的結(jié)果表明,該方法在韻律短語的預(yù)測上,精確率達(dá)到了752%,召回率達(dá)到了771%,綜合參數(shù)達(dá)到了761%。4提出了一種基于鄰接度的韻律結(jié)構(gòu)描述方法,該方法結(jié)合了基于鄰接度的語法結(jié)構(gòu)描述方法和原有的三層韻律結(jié)構(gòu)的描述方法,并從韻律停頓邊界長度與鄰接度的關(guān)系、韻律停頓邊界位置與語速的相關(guān)性、韻律停頓與重音的關(guān)系三個(gè)方面對原有的韻律結(jié)構(gòu)描述方法進(jìn)行了擴(kuò)充。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 44
大?。?5.8(MB)
子文件數(shù):
-
簡介:句法分析是自然語言處理基礎(chǔ)研究中的一個(gè)關(guān)鍵技術(shù)之一,是銜接詞法分析與語義分析的橋梁。本文的目的是從漢語自身特點(diǎn)出發(fā),以現(xiàn)有的句法分析理論和方法為指導(dǎo),研究和開發(fā)適合漢語的句法分析技術(shù)。句法分析技術(shù)指的是依據(jù)語法規(guī)則來確定句子結(jié)構(gòu)的分析方法。依存語法是當(dāng)今句法學(xué)研究的前沿和熱點(diǎn)問題之一,本文的句法分析采用的語法體系就是依存語法,采用的句法分析技術(shù)是決策式依存句法分析方法。NIVER算法作為決策式句法分析方法已經(jīng)成功的應(yīng)用于英文的依存句法分析,因?yàn)橛⑽暮椭形脑诰浞ㄌ攸c(diǎn)上具有一定的相似性,所以本文采用NIVRE算法進(jìn)行漢語依存句法分析。本文首先對現(xiàn)有的一些依存句法分析方法從處理策略,算法的時(shí)間復(fù)雜度等方面進(jìn)行了綜合分析和比較,其中詳細(xì)研究了NIVRE算法,然后針對該算法,本文提出了進(jìn)一步的改進(jìn)。NIVRE算法在分析長距離右依存時(shí)會(huì)出現(xiàn)錯(cuò)誤,在漢語中,只有動(dòng)詞和介詞跟他們的依存者具有右依存關(guān)系,所以錯(cuò)誤主要發(fā)生在動(dòng)詞和介詞的依存分析上。本文依據(jù)漢語介詞短語的特點(diǎn),提出了一種改進(jìn)的NIVRE算法,讓除了介詞外的介詞短語部分先進(jìn)行依存分析,最后再是跟介詞之間的依存分析,來減少介詞的長距離依存問題,提高漢語依存句法分析的正確率。實(shí)驗(yàn)數(shù)據(jù)采用含有1萬個(gè)句子的哈爾濱工業(yè)大學(xué)的依存關(guān)系語料庫,采用基于支持向量機(jī)SVM的句法分析器MALTPARSER作為本文算法的實(shí)現(xiàn)工具。結(jié)果表明,使用改進(jìn)后的NIVER算法進(jìn)行漢語依存句法分析,正確率提高了172%,對介詞的長距離依存取得了比較好的分析結(jié)果。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 56
大小: 1.95(MB)
子文件數(shù):
-
簡介:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的一個(gè)非常重要的手段。但是隨著信息爆炸似的增長,人們很難在較短的時(shí)間內(nèi)找到自己所需要的信息,這也就是信息過載的問題。文本分類是當(dāng)前數(shù)據(jù)挖掘的一個(gè)重要研究方向。一些應(yīng)用方面的工作,如對電子商務(wù)的評價(jià),民意調(diào)查的結(jié)果等等都需要對文本進(jìn)行挖掘。然而,從海量的信息中人工查找具有意見性的主觀性文本是不現(xiàn)實(shí)的。在本文中,我們提出一個(gè)方法來針對主客觀文本進(jìn)行分類。通過分析主客觀文本之間存在的差別來抽取能夠區(qū)別它們的一些特征。最終應(yīng)用樸素貝葉斯和支持向量機(jī)模型,用特征項(xiàng)的不同組合對其進(jìn)行主客觀文本分類,力爭達(dá)到最優(yōu)效果。隨著即時(shí)通信軟件(INSTANTMESSAGING)的普及(如MSN,QQ等),一種非規(guī)范語言就廣泛出現(xiàn)于其中。在這些環(huán)境中使用的特殊語言被稱為為網(wǎng)絡(luò)非規(guī)范語言(WKINFMALLANGUAGE,NIL)表達(dá)。例如在網(wǎng)絡(luò)聊天中常用“8錯(cuò)”取代“不錯(cuò)”,用“稀飯”表示“喜歡”等等。在傳統(tǒng)的文本挖掘中,這些信息都被視為噪音。但事實(shí)上,包含這些非規(guī)范詞語的句子經(jīng)常會(huì)存在用戶的表達(dá)個(gè)人意愿的信息。舉個(gè)例子,“這款車型還是受廣大車迷稀飯的”可以看出,在這個(gè)句子里面,“稀飯”表達(dá)“喜歡”。通過這句話持有者表達(dá)了自己對某一車型的觀點(diǎn)和看法。在本文工作中,文本預(yù)處理研究就是對這些主觀性的文本進(jìn)行正規(guī)化處理。首先通過編寫特定的網(wǎng)絡(luò)蜘蛛程序收集某論壇上一定時(shí)間段內(nèi)的網(wǎng)頁。對網(wǎng)頁進(jìn)行人工篩選,構(gòu)建非規(guī)范語言詞典。最終將互聯(lián)網(wǎng)上常見的非規(guī)范詞語劃分為六個(gè)大類??紤]到處理成本的問題,將這六個(gè)大類別劃分成兩個(gè)大類典型非規(guī)范語言和歧義非規(guī)范語言。對于典型非規(guī)范語言,采用基于序列覆蓋算法的模式匹配方法對其進(jìn)行正規(guī)化處理。而對于歧義非規(guī)范語言,由于這種類別很難從字詞層面上判斷出是否是非規(guī)范詞。采用基于特征抽取的分類方法將其識(shí)別。最終都達(dá)到正規(guī)化的目的。得出基本正規(guī)的主觀性文本。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 69
大?。?3.55(MB)
子文件數(shù):
-
簡介:隨著計(jì)算機(jī)和語音識(shí)別技術(shù)的發(fā)展使?jié)h語普通話水平測試系統(tǒng)的實(shí)現(xiàn)成為可能。漢語普通水平測試系統(tǒng)旨在利用人機(jī)交互優(yōu)勢解決現(xiàn)今普通話人工測試的一些缺點(diǎn)。實(shí)驗(yàn)證明利用計(jì)算機(jī)進(jìn)行普通話測試有利于統(tǒng)一測試的不足推廣普通話。主要是在對現(xiàn)有語音識(shí)別技術(shù)進(jìn)行研究尤其是在對漢語語音識(shí)別技術(shù)研究的基礎(chǔ)上完成普通話水平測試系統(tǒng)中雙音節(jié)詞測試的設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng)涉及到語音信號(hào)的采集、預(yù)處理、特征提取、模型的訓(xùn)練和匹配以及普通話水平的評價(jià)方式等。主要研究工作和取得的成果如下分析一般語音識(shí)別系統(tǒng)的結(jié)構(gòu)及所用到的各種理論技術(shù)討論語音識(shí)別系統(tǒng)中涉及到的基本概念及原理包括語音識(shí)別單元的選取、預(yù)處理、特征參數(shù)的提取、模式匹配及模型訓(xùn)練等技術(shù)。對語音識(shí)別中各種特征參數(shù)的提取方法進(jìn)行了系統(tǒng)的研究特別是對反映語音倒譜特征的LPCC和MFCC的提取方法進(jìn)行了深入的探討和分析并對它們進(jìn)行了仿真實(shí)驗(yàn)。深入地探討了連續(xù)概率密度隱馬爾可夫模型CDHMM的基本原理和識(shí)別算法的理論基礎(chǔ)和處理方法且根據(jù)實(shí)際需要分析得出本系統(tǒng)所用的數(shù)學(xué)模型的理論根據(jù)和可實(shí)現(xiàn)性并給出了算法的具體實(shí)現(xiàn)步驟。分析已有類似系統(tǒng)的評分方式結(jié)合目前普通話測試的評分模式改進(jìn)得出適合本系統(tǒng)的評價(jià)方式。在MICROSOFTVISUALSTUDIO2008和MATLAB65平臺(tái)上利用VC和MATLAB實(shí)現(xiàn)了漢語普通話中雙音節(jié)詞水平測試系統(tǒng)并對其進(jìn)行了測試。本系統(tǒng)主要解決的是雙音節(jié)詞的測試。通過實(shí)驗(yàn)測試證明了此系統(tǒng)能夠完成預(yù)期功能并通過比較同一個(gè)人的兩次測試結(jié)果以及不同人的測試結(jié)果來判定系統(tǒng)的效果。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 68
大?。?2.23(MB)
子文件數(shù):
-
簡介:語料庫語言學(xué)是當(dāng)代計(jì)算學(xué)語言學(xué)中經(jīng)驗(yàn)主義方法論取得顯著成效從而在計(jì)算語言學(xué)領(lǐng)域占有一定的優(yōu)勢地位的新學(xué)科方向。語料庫不僅是自然語言處理領(lǐng)域的基礎(chǔ)性資源,并且由此產(chǎn)生很多不同于理性主義方法的理論和方法。因此語料庫建設(shè)和研究就成為計(jì)算語言學(xué)的奠基工作。實(shí)踐證明一個(gè)好的語料庫應(yīng)該具有可重用性和可擴(kuò)展性,而語料標(biāo)注的標(biāo)準(zhǔn)化對于語料庫建設(shè)具有十分重要的意義。語料標(biāo)注跨越語言學(xué)和計(jì)算機(jī)科學(xué),需要對標(biāo)注的內(nèi)容即標(biāo)注哪些信息、目的即為什么要標(biāo)注、手段即怎樣實(shí)現(xiàn)標(biāo)注等問題進(jìn)行逐一的回答,而語料標(biāo)注的標(biāo)準(zhǔn)化也需要在這些問題上有一個(gè)明確的答案之后才得以進(jìn)行。但是目前中文語料標(biāo)注的工作主要集中在標(biāo)注內(nèi)容的研究上,更多地從語言學(xué)的角度研究漢語詞性標(biāo)注和切分的問題,對于語料標(biāo)注的手段問題特別是編碼格式的問題很少涉及,這樣也就達(dá)不到語料的標(biāo)準(zhǔn)化。XML作為網(wǎng)絡(luò)間數(shù)據(jù)交換的標(biāo)準(zhǔn)語言在許多垂直行業(yè)特別是電子商務(wù)中得到了廣泛運(yùn)用,同時(shí)目前在語料標(biāo)注領(lǐng)域也出現(xiàn)了將XML作為標(biāo)注的標(biāo)記語言的趨勢。本文對漢語語料標(biāo)注的問題進(jìn)行了研究,主要包括1,比較了國內(nèi)外語料標(biāo)注的理論研究和工程項(xiàng)目,指出了國內(nèi)語料標(biāo)注研究的兩大不足,即對語料標(biāo)注的編碼格式的關(guān)注程度不夠;對于標(biāo)注更多集中在切分標(biāo)注層次上,而沒有一個(gè)分層體系下的標(biāo)注研究2,提出語料標(biāo)注應(yīng)該著眼于語料的相互交換,而不是語料的本地處理3,基于上述的認(rèn)識(shí)明確提出了標(biāo)注語義和標(biāo)注表示的區(qū)分,該劃分具有十分重要的意義,該劃分廓清了語料標(biāo)注領(lǐng)域中的認(rèn)識(shí)誤區(qū),將語料標(biāo)注問題的研究分成兩個(gè)相對獨(dú)立的部分,從而可以相對獨(dú)立地發(fā)展關(guān)于標(biāo)注語義和標(biāo)注表示地研究。并將標(biāo)注表示的問題歸結(jié)為一系列對標(biāo)注表示的要求,這些要求需要有一個(gè)分層次的語料標(biāo)注模型。4,目前國內(nèi)還沒有出現(xiàn)關(guān)于語料標(biāo)注抽象數(shù)據(jù)模型研究的資料,本文則給出了一個(gè)基于集合論和圖論的形式化描述分層語料標(biāo)注模型MCAMMULTILEVELCPUSANNOTATIONMODEL,并且在定義該模型的同時(shí)將該抽象模型和具體的語料標(biāo)注過程進(jìn)行了對應(yīng),分析了分層標(biāo)注模型的優(yōu)點(diǎn),并且給出了MCAM模型的XML表示,從而說明了該抽象模型現(xiàn)實(shí)的可行性。5,最后則根據(jù)工作的實(shí)際,給出了一個(gè)MCAM模型下切分標(biāo)注的XML規(guī)范表示,并編寫了程序?qū)崿F(xiàn)語料的內(nèi)部格式到XML格式之間轉(zhuǎn)化的程序6,本文的研究還包括對語法信息詞典的XML改造。在分析了語法信息詞典在形式上的諸多不足之后,給出了一個(gè)XML的規(guī)范,并根據(jù)該規(guī)范將詞典的部分轉(zhuǎn)換成了XML格式,轉(zhuǎn)換的過程沒有出現(xiàn)信息的丟失。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 68
大?。?1.95(MB)
子文件數(shù):
-
簡介:文本時(shí)間關(guān)系解析TEMPALRELATIONRESOLUTION是自然語言處理領(lǐng)域的一個(gè)重要研究內(nèi)容,主要目的是識(shí)別自然語言文本中事件和時(shí)間信息及其時(shí)間關(guān)系,并進(jìn)行事件時(shí)間表達(dá)關(guān)系之間的研究與分析,其在信息檢索系統(tǒng)、問答系統(tǒng)、機(jī)器翻譯等人工智能領(lǐng)域有著重要的作用。TIMEMLTIMEMARKUPLANGUAGE是在自然語言文本中標(biāo)注事件和時(shí)間表達(dá)的一種規(guī)范語言,是為提升自然語言問答系統(tǒng)的處理性能而提出的,現(xiàn)已成為在事件時(shí)間表達(dá)標(biāo)記的一種ISO標(biāo)準(zhǔn)規(guī)范?;赥IMEML標(biāo)準(zhǔn)進(jìn)行自然語言文本時(shí)間關(guān)系解析研究是當(dāng)前自然語言處理領(lǐng)域的前沿課題,在問答系統(tǒng)、機(jī)器翻譯等基于自然語言理解的多種應(yīng)用研究中顯示出了良好的應(yīng)用前景。針對文本進(jìn)行分析,抽取文本中的事件和時(shí)間,建立事件之間的時(shí)間關(guān)系是對文本內(nèi)容進(jìn)行分析和時(shí)序挖掘的基礎(chǔ)??萍嘉谋径嗾Z言化,而且針對英文的時(shí)間關(guān)系解析研究較為成熟。因此,本文借助英文事件與時(shí)間的識(shí)別方法,借鑒德語等其他外文的研究經(jīng)驗(yàn),采用英漢平行語料,基于TIMEML標(biāo)準(zhǔn)進(jìn)行漢語文本時(shí)間關(guān)系解析研究。由于英漢語言結(jié)構(gòu)不同導(dǎo)致TIMEML五個(gè)主要標(biāo)簽中涉及語法結(jié)構(gòu)的屬性在英漢對譯文本之間不能完全平行實(shí)現(xiàn)。針對漢語語言特點(diǎn),本文對TIMEML應(yīng)用于漢語文本時(shí)間關(guān)系的標(biāo)注進(jìn)行了分析與理解,并借鑒德語、法語研究的經(jīng)驗(yàn),利用詞對齊的映射方法和技術(shù),構(gòu)建了漢語事件時(shí)間表達(dá)關(guān)系語料庫CHINESETIMEBANK。然后,基于CHINESETIMEBANK語料庫,進(jìn)行了漢語文本中事件類型之間的時(shí)間關(guān)系研究與分析。實(shí)驗(yàn)結(jié)果表明TIMEML可以成功的應(yīng)用于漢語文本時(shí)間關(guān)系的標(biāo)注,但是在漢語文本時(shí)間關(guān)系解析研究中,針對個(gè)別屬性(特征)的識(shí)別與分析還需要進(jìn)一步的研究。本文研究首先將TIMEML標(biāo)準(zhǔn)應(yīng)用于漢語文本時(shí)間關(guān)系的標(biāo)注,嘗試構(gòu)建了漢語事件時(shí)間表達(dá)關(guān)系語料庫CHINESETIMEBANK。然后進(jìn)行了相應(yīng)的時(shí)間關(guān)系解析研究,研究了漢語文本時(shí)間關(guān)系標(biāo)注的方法,對中文自然語言處理領(lǐng)域時(shí)間關(guān)系語料庫建設(shè)進(jìn)行了初步探索,對漢語文本處理研究進(jìn)行了嘗試,這正是本文研究的創(chuàng)新之處和技術(shù)意義所在。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 101
大?。?3.67(MB)
子文件數(shù):
-
簡介:重音是一種重要的韻律特征,在目前比較常用的漢語重音檢測方法中,根據(jù)特征大致可以分為三類,一類是基于聲學(xué)特征的檢測方法;另一類是基于語法特征的檢測方法;還有一類是融合聲學(xué)特征和語法特征的檢測方法。這三類重音檢測方法作為某些語音系統(tǒng)的關(guān)鍵技術(shù)已經(jīng)廣泛應(yīng)用于實(shí)際生活中。由于實(shí)際生活中存在很多噪聲,使得應(yīng)用效果不太理想。本文在現(xiàn)有漢語重音檢測方法基礎(chǔ)上,依據(jù)特征種類對漢語重音檢測方法的影響,從基于上下文聲學(xué)特征、基于感覺加權(quán)線性預(yù)測PERCEPTUALLINEARPREDICTIVE,PLP子段拼接短時(shí)譜特征、基于MEL倒譜頻率系數(shù)MELFREQUENCYCEPSTRALCOEFFICIENTS,MFCC子段拼接短時(shí)譜特征和融合各類優(yōu)選特征四個(gè)層面上展開了漢語重音檢測方法的研究工作。基于上下文聲學(xué)特征的漢語重音檢測方法。漢字的重音強(qiáng)度很容易受到周圍漢字的影響,故本論文為每個(gè)被測漢字選取了八種不同上下文窗口,由基頻、音強(qiáng)、能量、時(shí)長及其八類上下文窗口特征組成實(shí)驗(yàn)所需的特征集?;赑LP子段拼接短時(shí)譜特征和MFCC子段拼接短時(shí)譜特征的漢語重音檢測方法。子段拼接短時(shí)譜技術(shù)把一個(gè)漢字的語音幀平均分為若干個(gè)子段,提取每個(gè)子段的相關(guān)語音特征。基于PLP和MFCC子段拼接短時(shí)譜特征重音檢測方法把一個(gè)漢字的語音幀平均分成1到20個(gè)子段,然后提取每個(gè)子段的最大值、最小值和平均值。融合優(yōu)選特征的漢語重音檢測方法。本論文介紹了一種特征篩選算法,包括4個(gè)基本步驟子集產(chǎn)生、子集評價(jià)、停止條件和結(jié)果驗(yàn)證。本文把不同的優(yōu)選特征融合在一起,包括聲學(xué)特征和PLP短時(shí)譜特征的融合、聲學(xué)特征和MFCC短時(shí)譜特征的融合、MFCC短時(shí)譜特征和PLP短時(shí)譜特征的融合以及聲學(xué)特征和短時(shí)譜特征的融合。在噪聲環(huán)境下,融合聲學(xué)特征和短時(shí)譜特征的漢語重音檢測正確率最高能達(dá)到883%。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 61
大?。?0.83(MB)
子文件數(shù):
-
簡介:句法分析是自然語言處理的核心課題之一。依存句法分析是應(yīng)用依存語法對自然語言進(jìn)行自動(dòng)句法分析,具有形式簡單、易于標(biāo)注、便于應(yīng)用等優(yōu)點(diǎn),可運(yùn)用于關(guān)系抽取、機(jī)器翻譯、本體構(gòu)建、語義角色標(biāo)注等領(lǐng)域,具有廣泛的應(yīng)用前景。句法分析方法可分為基于規(guī)則和統(tǒng)計(jì)的兩大類。在早期研究中,基于規(guī)則的方法占據(jù)主流。但由于其所存在的一些缺陷,80年代中期研究者們開始探索統(tǒng)計(jì)的方法。自90年代以來,隨著語料資源的獲取變得容易,統(tǒng)計(jì)方法成為主流。本文使用基于語料庫的統(tǒng)計(jì)學(xué)習(xí)方法,對漢語的依存句法分析技術(shù)進(jìn)行了探索。主要包括以下三方面第一,由于很多漢語樹庫多采用短語結(jié)構(gòu)的標(biāo)注形式,依存樹庫的建設(shè)還存在很多不足。所以,國內(nèi)外不少研究者都嘗試將短語結(jié)構(gòu)樹庫轉(zhuǎn)化為依存樹庫,轉(zhuǎn)化的第一步就要標(biāo)注句法成分的中心詞。針對此問題,本文提出一種基于層疊條件隨機(jī)場的統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,來提高中心詞識(shí)別的準(zhǔn)確率,從而有利于樹庫之間的轉(zhuǎn)化。第二,在漢語依存句法分析中,長距離依存關(guān)系的識(shí)別是其中的一個(gè)難點(diǎn),也是影響依存分析效果的主要原因。漢語句中的謂詞可將一個(gè)長句分割為兩個(gè)短句,從而降低了句法分析的難度。本文采用基于最長名詞短語前處理和規(guī)則后處理的方法來進(jìn)行謂詞自動(dòng)識(shí)別,為下一步長距離依存關(guān)系的分析奠定了基礎(chǔ)。第三,本文將漢語依存句法分析分為依存弧和關(guān)系識(shí)別兩步進(jìn)行。依存弧識(shí)別任務(wù)轉(zhuǎn)換為詞對分類問題,并采用了一個(gè)基于動(dòng)態(tài)規(guī)劃的搜索算法,提高搜索效率。并在此基礎(chǔ)上,與MST依存句法分析器進(jìn)行融合,來提高依存弧分析的準(zhǔn)確率。依存關(guān)系類型識(shí)別任務(wù)轉(zhuǎn)換為多分類問題。通過對實(shí)驗(yàn)結(jié)果的分析及比較,驗(yàn)證了本文方法的有效性。本文前兩部分的工作為依存句法分析提供服務(wù),并在不同層面上解決了漢語依存分析中的難點(diǎn)問題。后面的工作主要在漢語依存句法分析上做了理論和技術(shù)上的探索。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 61
大小: 6.8(MB)
子文件數(shù):