-
簡介:該報告以不定長非特定人漢語連續(xù)數(shù)字串語音識別為背景結(jié)合語言感知和聲學(xué)建模理論針對漢語特點從多個角度比較研究了聲學(xué)建模方法從特征參數(shù)提取的角度我們回顧了線性預(yù)測分析、MEL倒譜系數(shù)提取、感知線性預(yù)測分析、基于GAMMATONE聽覺濾波器組的特征提取方法以及相對譜處理方法實驗結(jié)果表明采用線性預(yù)測分析法的系統(tǒng)識別率遠遠低于用MEL倒譜系數(shù)法的系統(tǒng)基于GAMMATONE聽覺濾波器組的系統(tǒng)識別率略高于MEL倒譜系數(shù)法但其計算開銷比MEL倒譜系數(shù)法大從模式識別的角度該文介紹了隱含馬爾可夫模型(HMM)的基本原理和HMM在連續(xù)語音聲學(xué)建模中的應(yīng)用我們從建模單元、訓(xùn)練方法和識別方法三個方面針對不定長度漢語非特定人連續(xù)數(shù)字串語音識別的具體問題進行了探討說話人之間的頻譜特性差異會導(dǎo)致特征參數(shù)不集中從而影響聲學(xué)建模和識別該文采用說話人聲道長度歸一化法(VTLN)對說話人特征作了歸一化使得識別系統(tǒng)性能有了明顯提高結(jié)合以上的方法我們在一個由72女74男發(fā)音的包含了2737條漢語連續(xù)數(shù)字串的語料庫上用交叉檢驗法(CROSSVALIDATION)得到識別結(jié)果如下字誤識率為291﹪字精確率為9709﹪句子精確率為8815﹪
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 71
大?。?2.17(MB)
子文件數(shù):
-
簡介:在自然語言文語料庫的較高水平分析中自動的詞類分析是非常重要的組成部分其中一個重要問題是當(dāng)詞用于具體的上下文中時獲得正確的詞類分析提高詞類分析的精確率將導(dǎo)致更好的機器翻譯系統(tǒng)信息系統(tǒng)等等該文提出一種基于約束規(guī)則與無監(jiān)督學(xué)習(xí)的詞類分析策略該方法開始于獨立于語料庫的手工制作的約束規(guī)則集合通過無監(jiān)督學(xué)習(xí)學(xué)習(xí)約束規(guī)則所使用的一些約束條件同時使用未進行詞類加標的語料庫其中所有詞匯項已被標注具有所有可能的詞法分析評價由存在歧義的上下文所獲取的約束來消除其它的詞法分析歧義在整個實現(xiàn)過程中未以犧牲查全率為代價來減少詞類歧義而查準率相應(yīng)提高該方法可有效地完成漢語文本的自動詞類分析基于分析過程所提供的正確知識信息可順利進行其它相關(guān)處理過程同時建立了漢語詞類分析中知識體系的架構(gòu)其中包括漢語電子詞典的建立、語料庫構(gòu)建以及詞類分類表的制定漢語電子詞典在整個知識庫體系當(dāng)中處于基礎(chǔ)性的位置是實現(xiàn)詞類分析的最為重要的知識源也是必不可少的資源在漢語自動詞類分析中這三類知識通過合理地組織與有機地結(jié)合形成一個完整良好的知識體系基于知識體系的成功構(gòu)建可進行有效且準確的漢語詞類分析實現(xiàn)高質(zhì)量的漢語分析與處理最后基于所完成的各項研究工作建立了漢語詞類分析模型通過對其性能的實驗測試可以看出該模型的有效性、可行性及其實用性
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 61
大小: 1.92(MB)
子文件數(shù):
-
簡介:該文介紹了HMM的基本原理和基于HMM的語音識別方法描述了漢語的語音學(xué)基礎(chǔ)和識別框架并從搜索算法的角度對連續(xù)語音識別方法進行了討論VITERBI搜索算法是目前比較常用的一種連續(xù)語音識別算法在這種方法的基礎(chǔ)上該文詳細討論了一些在盡可能不損失精度的同時有效提高識別速度的算法和策略詞法樹搜索算法利用不同識別單元發(fā)音上的相似性對搜索空間進行壓縮多遍搜索策略將識別分成若干個階段進行為應(yīng)用復(fù)雜模型的識別系統(tǒng)提供了一個可行的實時實現(xiàn)的方案剪枝算法在識別過程中的每個時刻對搜索空間進行必要的限制使搜索在一定范圍內(nèi)進行為了說明上面的這些技術(shù)應(yīng)用于漢語時的性能在該文中結(jié)合基于字的漢語語音識別框架對聯(lián)些技術(shù)進行了測試和比較并且在傳統(tǒng)的對狀態(tài)空間的BEAM剪枝策略的基礎(chǔ)上提出了一種包含終結(jié)狀態(tài)剪枝和節(jié)點剪枝的新的剪枝策略在論文的最后介紹了兩種目前正在研究中的壓縮搜索空間的技術(shù)分析了它們存在的問題提出了未來的研究方向
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 50
大?。?1.58(MB)
子文件數(shù):
-
簡介:句法分析在自然語言理解中起著舉足輕重的作用是銜接自然語言理解中詞法分析與語義分析的橋梁文章首先對現(xiàn)有的一些句法分析方法進行了比較、綜合在總結(jié)前人研究理論的基礎(chǔ)上該文對句法分析采用了規(guī)則與統(tǒng)計相結(jié)合規(guī)則為主統(tǒng)計為輔的方法該文論述了自然語言理解NLU句法分析的特點、原理、以及方法并給出了面向機械設(shè)計領(lǐng)域的漢語句法分析的整個過程它包括詞性確定、語塊分析、事件處理、添加連接符等一系列過程句法分析的難點在于歧義解決與語塊分析針對這兩大難點該文在專門章節(jié)進行了研究最后該文研究了自然語言理解句法分析在機械設(shè)計領(lǐng)域中的應(yīng)用通過對以自然語言形式表達的用戶需求進行分析并將分析結(jié)果交給NLU語義、語用分析繼續(xù)處理從而最終將用戶需求轉(zhuǎn)化為概念設(shè)計要求為產(chǎn)品設(shè)計提供支持
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 62
大?。?2.61(MB)
子文件數(shù):
-
簡介:語音識別是一門內(nèi)涵豐富、應(yīng)用廣泛的技術(shù)在一些應(yīng)用領(lǐng)域中正迅速成為一個關(guān)鍵的具有競爭力的技術(shù)如用于自動口語翻譯實現(xiàn)跨語言交流。本文以漢語大詞表連續(xù)語音識別為應(yīng)用背景主要研究了基于人工神經(jīng)網(wǎng)絡(luò)模型ANN與隱馬爾可夫模型HMM相結(jié)合的混合模型。本文詳細分析了ANN和HMM的優(yōu)點與缺點。深入研究了五種主要的ANNHMM混合模型早期模擬HMM算法的嘗試用ANN估計HMM的狀態(tài)后驗概率基于全局最優(yōu)訓(xùn)練方法的混合模型ANN作為離散型HMM的矢量量化器ANN作為HMM的后處理器。本文研究了ANNHMM混合模型的優(yōu)勢并提出了一種基于隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)混合模型的漢語大詞表連續(xù)語音識別系統(tǒng)。在混合模型系統(tǒng)中多種模型協(xié)同工作。ANN是狀態(tài)級模型負責(zé)建模音素發(fā)音物理特性HMM聯(lián)合語言學(xué)模型識別待識語料。這樣混合模型系統(tǒng)能夠結(jié)合HMM和ANN兩種模型的優(yōu)點HMM對時間序列結(jié)構(gòu)建模能力強ANN的非線性預(yù)測能力強建模能力強魯棒性便于硬件實現(xiàn)。最后考慮到音節(jié)發(fā)音的發(fā)音變化性和神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點將多路徑建模技術(shù)引進系統(tǒng)明顯減少了刪除錯誤增強了系統(tǒng)的建模能力。實驗結(jié)果表明HMMANN混合模型系統(tǒng)有效結(jié)合了兩種模型的優(yōu)點提高了識別率。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 58
大?。?2.4(MB)
子文件數(shù):
-
簡介:本文針對可移植對話系統(tǒng)的模型框架,可移植對話系統(tǒng)中口語識別和口語理解的任務(wù)域移植等問題,進行了初步研究,提出了一些新的模型、方法和策略。本文提出了對話系統(tǒng)的分層模型,提出了可移植對話系統(tǒng)的通用框架,整個框架模型的提出側(cè)重于技術(shù)實現(xiàn)的角度,適用于信息查詢領(lǐng)域。本文深入剖析了可移植對話系統(tǒng)的各個組成模塊,給出了規(guī)范標準的任務(wù)域移植過程。在移植過程中,任務(wù)數(shù)據(jù)層由開發(fā)者建立,任務(wù)解析層由系統(tǒng)依據(jù)任務(wù)數(shù)據(jù)層自動生成,訓(xùn)練過程采用數(shù)據(jù)驅(qū)動的方法;提出了基于對話回合衰減的CACHE自適應(yīng)語言模型,以在線遞增的方式訓(xùn)練并建立起新任務(wù)域的語言模型;提出了基于關(guān)鍵短語的句子理解方法;提出了對話語境指導(dǎo)下的上下文理解方法;提出了口語理解自動建模的方法,首次提出了同步衰減頻率的概念,并應(yīng)用于任務(wù)域短語的自動提取,定義了一種新的語義相似度,并應(yīng)用于關(guān)鍵短語的自動語義聚類。本文最終實現(xiàn)了兩個可移植對話系統(tǒng)的實例。首先精心建立了一個頤和園導(dǎo)游對話系統(tǒng),然后通過將系統(tǒng)移植到列車信息查詢?nèi)蝿?wù)域,快速簡單的建立了一個列車信息查詢對話系統(tǒng)。實驗結(jié)果表明本文所提出的模型和方法取得了良好效果。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 164
大?。?4.51(MB)
子文件數(shù):
-
簡介:隨著信息時代的到來,中文信息的自動化處理越來越顯示出其重要價值。然而缺少細致的致力于規(guī)則的句法描寫已成為嚴重制約中文信息自動化處理的瓶頸。句法分析作為自然語言處理中的重點和難點,雖然經(jīng)過幾十年的研究與發(fā)展,但是當(dāng)面對大量真實文本的分析時,由于漢語句子的復(fù)雜性和靈活性等特點,對漢語句子的完全分析無論在空間上還是在時間上都受到了極大的挑戰(zhàn)。部分句法分析PARTIALPARSING作為近年來出現(xiàn)的一個新的語言處理策略,主要著眼于組塊CHUNK的識別與分析。盡管部分句法分析的結(jié)果并不是一棵完整的句法樹,但各個組塊是完整句法樹的一個子圖SUBGRAPH,只要加上組塊之間的依附關(guān)系A(chǔ)TTACHMENT,就可以構(gòu)成完整的句法樹。這樣就使句法分析的任務(wù)在某種程度上得到簡化,同時也有利于句法分析技術(shù)在大規(guī)模真實文本處理系統(tǒng)中迅速得到利用。本文以“面向計算機的現(xiàn)代漢語‘得’字研究”為題正基于此,我們希望通過對“得”字結(jié)構(gòu)的識別研究,使之成為完整句法樹的一個子圖,從而最終實現(xiàn)計算機的自動識別。由于純粹從為計算機識別服務(wù)的目的出發(fā),立足于面向計算機的自然語言信息處理,我們將研究范圍限定在無論來源、無論讀音、無論詞性,凡字形相同的“得”字均在我們的討論之列。研究重點主要集中在三個方面。第一,“得”字結(jié)構(gòu)的分布特征研究。在對各類“得”字的句法功能及語義特征進行明確界定的基礎(chǔ)上,對“得”字結(jié)構(gòu)的語體分布特征進行了詳細的描述,并對表現(xiàn)出來的明顯傾向性進行了適當(dāng)?shù)姆治觥V赜^察“得”字述補結(jié)構(gòu)中“得”前成分與不同語體的對應(yīng)關(guān)系,以及“得”后不同補語類型在各類語體中的分布情況,并分析其分布狀況及產(chǎn)生對應(yīng)關(guān)系的原因。第二,“得”字結(jié)構(gòu)的組合特征研究。在對各類“得”字左右鄰接特征分布進行統(tǒng)計的基礎(chǔ)上,結(jié)合對“得”字左右鄰接限制特征的調(diào)查,對“得1”、“得2”、“得3”、“得4”的左鄰接和右鄰接特征及其限制性特征進行了包括隱性鄰接在內(nèi)的詳細描述,發(fā)現(xiàn)其鄰接規(guī)律,并就“得”字的左右顯性鄰接共現(xiàn)情況進行觀察和描述;引入“熵”的計算,通過數(shù)據(jù)的演算進一步說明各類“得”字對左右鄰接詞語所具有的選擇性。第三,“得”字述補結(jié)構(gòu)的語法及語義分析研究。在借鑒前人研究成果的基礎(chǔ)上,從利于計算機識別與處理的觀點出發(fā),對“得”字述補結(jié)構(gòu)的結(jié)構(gòu)類型,即可能式述補結(jié)構(gòu)和非可能式述補結(jié)構(gòu),從句法模式到句法成分間的語義選擇進行了明確的界定;并就非可能式述補結(jié)構(gòu)中補語的結(jié)構(gòu)類型進行分類,確立了非可能式述補結(jié)構(gòu)的結(jié)構(gòu)形式與語法意義的對應(yīng)關(guān)系。本文研究的創(chuàng)新之處在于1首次以為計算機識別服務(wù)為目的,立足于面向計算機的自然語言信息處理,對現(xiàn)代漢語的“得”字進行包括語體分布特征、左右鄰接特征、語法結(jié)構(gòu)及語義關(guān)系等在內(nèi)的全方位的觀察與研究,借助形式標記的發(fā)掘,實現(xiàn)對不同類型“得”字結(jié)構(gòu)的鑒別,以適應(yīng)計算機對不同“得”字“理解”的要求。2運用詞匯語法理論,定量統(tǒng)計與定性分析相結(jié)合,研究“得”字結(jié)構(gòu)內(nèi)部成分之間的鄰接關(guān)系和共現(xiàn)關(guān)系。對顯性的鄰接特征和左右成分共現(xiàn)情況進行了詳細的描述,并對隱性的鄰接特征進行了預(yù)測。3在“得”字的鄰接研究中引入“熵”的概念,通過數(shù)據(jù)的演算進一步說明各類“得”字對左右鄰接詞語所具有的選擇性。同時,也為今后搭配概率的統(tǒng)計分析提供有利的數(shù)據(jù)支持。4從為計算機的自動識別提供盡可能形式化、可操作的語言學(xué)標準的觀點出發(fā),對“得”字述補結(jié)構(gòu)的結(jié)構(gòu)類型,從句法模式到句法成分間的語義選擇進行了明確的界定;并就非可能式述補結(jié)構(gòu)中補語的結(jié)構(gòu)類型進行分類,確立了非可能式述補結(jié)構(gòu)的結(jié)構(gòu)形式與語法意義的對應(yīng)關(guān)系。5建立大規(guī)模的真實文本語料庫,自行標注,為本課題研究奠定了堅實的基礎(chǔ),保證了研究結(jié)果的信度和效度。首次實現(xiàn)了在大規(guī)模的語料庫范圍內(nèi)采用基于統(tǒng)計的方法對現(xiàn)代漢語“得”字在真實文本中的使用情況進行窮盡性的研究。6自行研制WDPARSE軟件和DATAWD軟件,完成數(shù)據(jù)庫建設(shè)及數(shù)據(jù)統(tǒng)計分析,建構(gòu)前后接續(xù)觀察和統(tǒng)計系統(tǒng);首次將XML技術(shù)成功地運用于現(xiàn)代漢語語料處理和語法研究,為計算機輔助現(xiàn)代漢語研究作了一些新的嘗試。7本研究為致力于規(guī)則化的漢語句法描寫作了一次有益的嘗試。研究得出的結(jié)論及建構(gòu)的框架能為類似字詞結(jié)構(gòu)的計算機處理研究提供借鑒,并為今后計算機相關(guān)中文信息處理的應(yīng)用系統(tǒng)的開發(fā)提供語言學(xué)上的支持。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 222
大?。?1.71(MB)
子文件數(shù):
-
簡介:隨著計算機與信息技術(shù)的繼續(xù)發(fā)展,語音交互技術(shù)必將成為人機交互的必要手段。語音識別技術(shù)就是讓機器聽懂人類的語音并執(zhí)行相關(guān)的動作,是一個研究的熱點。連續(xù)數(shù)字語音識別是語音識別的一個重要分支,它在現(xiàn)實中具有廣泛的應(yīng)用前景,在互聯(lián)網(wǎng),通信,軍事,國防,人機交互等方面都有重要的應(yīng)用價值。雖然這方面的研究有很多,但目前仍有許多問題有待進一步探索。本文主要研究的是基于HTK的漢語連續(xù)數(shù)字的識別以及相關(guān)研究,首先對HTK(HIDDENMARKOVMODELTOOLKIT)的軟件結(jié)構(gòu)以及HTK工具包進行了分析,搭建出基于HTK的漢語連續(xù)數(shù)字語音識別系統(tǒng),測試了聲學(xué)模型,高斯混合分量和MFCC維數(shù)對系統(tǒng)識別率的影響。接著,在理解了基于HTK的語音識別系統(tǒng)的搭建過程的基礎(chǔ)上,實現(xiàn)了基于HTK的語音撥號系統(tǒng),是對電話號碼和人名的語音識別。然后,進行了基于ATKAPIOFHTK的實時語音識別的初步研究。討論了使用ATK建立一套實時語音識別系統(tǒng)的過程,并且實現(xiàn)了基于ATK的實時語音撥號系統(tǒng),但是識別效果不理想。對較為復(fù)雜的語音識別網(wǎng)絡(luò),開展了HTK中語音識別網(wǎng)絡(luò)的研究,導(dǎo)出了一種優(yōu)化語音識別網(wǎng)絡(luò)的方法,并且從理論上證明和實驗上驗證了其正確性。最后,針對語音識別和因特網(wǎng)傳輸技術(shù)的特點,設(shè)計出簡單的語音識別網(wǎng)絡(luò)傳輸方案采用客戶服務(wù)器模式,在客戶端提取出語音信號的特征參數(shù),采用TCP協(xié)議把特征參數(shù)傳輸給服務(wù)器,由服務(wù)器完成識別與訓(xùn)練的工作。系統(tǒng)使用HTK和VISUALC編程工具,使用MFC中封裝的WINDOWSSOCKETS類完成了語音特征參數(shù)和識別結(jié)果的網(wǎng)絡(luò)傳輸,實現(xiàn)了一個初步的基于網(wǎng)絡(luò)傳輸?shù)倪B續(xù)數(shù)字語音識別系統(tǒng)。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 62
大?。?0.48(MB)
子文件數(shù):
-
簡介:近年來,人臉動畫在計算機圖形學(xué)是一個極具挑戰(zhàn)性的研究領(lǐng)域。人臉動畫廣泛的應(yīng)用于教學(xué)、數(shù)字娛樂、游戲、人機交互、遠程會議、影視制作、醫(yī)學(xué)手術(shù)、人臉識別等領(lǐng)域。我們基于MPEG4標準和中文語言學(xué)理論,以TTS引擎、OPENGL作為主要的開發(fā)工具,實現(xiàn)了一個基于漢語文本驅(qū)動的人臉語音動畫系統(tǒng)。該系統(tǒng)主要由四部分組成文本分析系統(tǒng);語音合成系統(tǒng);人臉動畫系統(tǒng)和語音與動畫同步系統(tǒng)。系統(tǒng)的執(zhí)行流程是一方面,語音合成系統(tǒng)接收輸入的中文文本,分析處理后,合成語音并產(chǎn)生帶有時間信息的音素流;另一方面,基于肌肉模型建立具有真實感的特定人臉模型,使用音素幀參數(shù)和表情幀參數(shù)驅(qū)動模型網(wǎng)格點移動,從而實現(xiàn)人臉動畫;最后將合成的語音與人臉動畫同步,就實現(xiàn)具有真實感的、帶有表情的人臉語音動畫。本系統(tǒng)建立的協(xié)同發(fā)音模型有效地解決了中文協(xié)同發(fā)音的問題,這是本論文的一個創(chuàng)新點。協(xié)同發(fā)音是指在連續(xù)說話過程中,一個音素的發(fā)音受到相鄰語音段影響的現(xiàn)象。語音合成系統(tǒng)將中文可視音素劃分為15組,可獲得帶有時間信息的中文可視音素序列,成功解決了TTS引擎不能直接產(chǎn)生中文音素和中文可視音素的問題,這是論文的第二個創(chuàng)新點。此外,系統(tǒng)在通用模型的基礎(chǔ)上進行特定化修正,通過模型校準、紋理映射方法,生成具有高度真實感的人臉模型。系統(tǒng)還通過定義表情標簽、表情過渡、表情與可視音素混合等處理,實現(xiàn)了帶有表情的人臉動畫。由于本系統(tǒng)實現(xiàn)的人臉動畫,只是通過嘴唇來模擬說話和表情動作,而并沒有考慮人臉其它部位在說話過程中的動作變化。因此,在人臉建模方面,對人臉其它部位如眼睛,舌頭等的模擬是未來研究的一個方向。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 79
大?。?2.54(MB)
子文件數(shù):
-
簡介:本文以嶄新的思想構(gòu)建了一個漢語句子分析模型該模型是基于算符優(yōu)先文法理論的它把一個句子的分析過程抽象成一個隱含了操作符的算符表達式的計算過程其模型包括三部分漢語句子的線性視圖模式、句法分析器和句法樹視圖模式其中線性視圖模式是漢語句子的分詞序列句法樹視圖模式為二叉樹形式的句法分析樹它與線性視圖模式的區(qū)別在于它給出了句子的層次結(jié)構(gòu)句法分析器是整個模型的核心其句法分析算法實現(xiàn)從線性視圖模式到句法樹視圖模式的轉(zhuǎn)換該模型的建立旨在不進行句法規(guī)則的大規(guī)模形式化的基礎(chǔ)上實現(xiàn)一種簡單、靈活、高效的漢語自動句法分析方法本文基于算符優(yōu)先文法的漢語句法模型是建立在漢語二元運算關(guān)系的基礎(chǔ)上的根據(jù)該二元運算關(guān)系建立了該算符優(yōu)先文法模型中隱含的操作符并規(guī)定了它們之間可能存在的優(yōu)先關(guān)系為此文中對二元運算關(guān)系的普遍性、可計算性進行了討論對二元運算關(guān)系的運算對象、運算符和運算結(jié)果進行了形式化描述在二元運算關(guān)系表、二元運算關(guān)系優(yōu)先級表和類屬語義知識庫的支持下在建立了識別任何兩個詞之間的二元運算關(guān)系的算法的基礎(chǔ)上本文設(shè)計了該模型的句法分析算法該算法采用類似于算數(shù)表達式求值的方法得到了句子的二叉樹形式的句法結(jié)構(gòu)為了驗證句法分析算法的正確性和可行性我們構(gòu)造了相應(yīng)的句法分析實驗系統(tǒng)對算法的時間復(fù)雜性和空間復(fù)雜性進行了討論
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 43
大?。?1.54(MB)
子文件數(shù):
-
簡介:信息網(wǎng)絡(luò)技術(shù)的飛速發(fā)展使信息的發(fā)布和共享超越了時空限制,基于自然語言處理技術(shù)的文檔高質(zhì)量自動處理成為熱點研究課題。自然語言中普遍存在著歧義現(xiàn)象。計算機處理自然語言文檔時,必然要面對和解決各種歧義問題。歧義消解成為自然語言處理中的核心任務(wù)之一。語言中的歧義錯綜復(fù)雜,本文認為,簡單的單一分析不可能認識語言歧義的全貌,因而也就不可能高質(zhì)量地消解歧義,只有對歧義進行多視角綜合考察,才能達到此目標。為此,本文從縱橫兩個視角進行歧義研究。一、基于全信息理論的橫向視角信息有語法、語義和語用三個層次,語言信息同樣如此。而每個層次都存在歧義,即有語法歧義,語義歧義和語用歧義。這個角度有助于從語言邏輯層面更清晰地研究歧義特征。二、基于語言單元的縱向視角漢語的主要語言單元包括詞、短語及句子等。而歧義在每一級單元都存在,即有詞匯層歧義、短語層歧義以及句子層歧義等??v向角度便于研究的具體實現(xiàn),并有可能探索通用的消歧方法。綜合這兩個角度,本文研究的內(nèi)容包括,從語法層看的詞匯邊界歧義和短語邊界歧義,從語義層看的詞匯多義歧義、短語功能歧義及短語結(jié)構(gòu)歧義。在各種歧義的研究中,本文主要圍繞歧義分類、歧義偵測和歧義消解三個問題進行。歧義分類研究各種歧義的特征,歧義偵測是為了發(fā)現(xiàn)歧義及確定歧義的位置,而基于歧義特點對偵測出的歧義進行消解則是語言處理的中心任務(wù)。從兩個視角出發(fā),集中解決三個問題構(gòu)成了本文的研究框架。本文的主要研究成果包括以下幾點1對漢語語言信息自動處理時的歧義在特征上進行了分類。將詞匯級語法歧義分為交疊歧義和包絡(luò)歧義兩大類。提出了新的歧義偵測和消歧方法;2利用級聯(lián)分類方法改進了基于經(jīng)驗定義的短語識別的性能,有效降低了學(xué)習(xí)器訓(xùn)練時間,進一步從語義角度研究了復(fù)合名詞短語定界歧義問題,同時實現(xiàn)了跨語料的短語識別及歧義研究;3用粒度短語的觀點處理漢語短語定義模糊的問題,實現(xiàn)了粒度名詞短語的定義和識別方法;4從短語功能角度完成句子骨架成分的識別,消解短語在句子中的句法功能歧義。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 106
大?。?4.22(MB)
子文件數(shù):
-
簡介:隨著漢語自然語言處理任務(wù)的不斷深入,漢語句子研究也逐步從句法層面,進入到了語義層面,漢語句子的句法語義分析逐漸成為漢語自然語言處理過程中一個重要的任務(wù)。經(jīng)過多年發(fā)展,句法、語義層面的研究已相對比較成熟,可是對于完整句子的句法語義分析性能仍難以獲得理想的結(jié)果。導(dǎo)致這個問題的原因,一方面是由于現(xiàn)有技術(shù)條件的限制,另一方面則是由于漢語句子自身結(jié)構(gòu)的特點。因此,在不斷提出新方法或改進現(xiàn)有方法的同時,有學(xué)者提出了利用事件描述單元這個概念來解決句法語義分析的困難。事件描述單元可以簡單的理解為將依照事件劃分的簡單單元,它的提出將傳統(tǒng)的完整句子的句法語義分析轉(zhuǎn)化為事件描述單元的句法語義分析及單元間邏輯關(guān)系分析,從而降低的分析難度。而事件描述單元句法語義分析的基礎(chǔ)則是對事件描述單元的正確識別,這也是文本所要解決的重點問題。目前,事件描述單元的識別方法主要有統(tǒng)計與規(guī)則兩種方法。但兩種方法在識別中都存在一些缺陷,需要更為豐富的句法語義特征信息提高識別正確率。在這種情況下,本文提出一種將兩種方法相結(jié)合的事件描述單元識別方法。該方法以最大熵分類器和啟發(fā)式謂詞識別規(guī)則為基礎(chǔ),設(shè)計了兩套結(jié)合方案。在不增加新的句法語義特征情況下,在測試集上獲得了794%和786%的正確率,提高了事件描述單元的識別性能。此外,我們進行了事件描述單元的句法語義分析初探。在總結(jié)前人研究成果的基礎(chǔ)上,結(jié)合事件描述單元結(jié)構(gòu)簡單的特點,提出了基于短語組合規(guī)則的句法分析方法和利用句法樹信息及配價模式進行CFN框架元素標注的方法。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 58
大?。?11.58(MB)
子文件數(shù):
-
簡介:在漢語連續(xù)語音識別過程中經(jīng)常對語音端點的判斷發(fā)生錯誤導(dǎo)致了識別成功率的下降針對這個問題作者進行了研究在該文中提出了一種綜合利用各種識別特征進行連續(xù)語音端點檢測的方法并且把語音分段的過程分成兩個階段初步分段過程和最終分段過程初步分段過程使用了能量和過零率這兩個主要特征進行端點檢測重點是合理選擇兩個重要參數(shù)門限和統(tǒng)計幀長度的取值在最終分段過程中作者首先通過比較幾種特征的識別效果選擇卡爾曼濾波參數(shù)作為再次分段的識別特征還提出了一種新的識別特征周期性緩變特征使用這兩個特下分別在子語音段內(nèi)進行端點檢測根據(jù)對大量實驗語音的統(tǒng)計結(jié)果由于使用了新的識別特征并且先進了合適的重要參數(shù)值作者的方法提高了漢語連續(xù)語音端點檢測的識別正確率
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 59
大小: 2.21(MB)
子文件數(shù):
-
簡介:試題庫的建設(shè)是高等教育教學(xué)改革的一項重要內(nèi)容。我國從20世紀80年代開始就有很多學(xué)科建立了試題庫,取得了良好的效果。但到目前為止,高師院校的古代漢語試題庫尚未建立,有關(guān)高師古代漢語試題庫的專門的論著尚未見到,相關(guān)論著也極少。在當(dāng)前高校教育教學(xué)改革的大環(huán)境下,針對高師古代漢語教學(xué)存在的問題,我們認為有必要進行高師古代漢語試題庫的建設(shè)。它的建設(shè)有利于促進教考分離,提高考試的公正性,從而提高教師教學(xué)的積極性和學(xué)生學(xué)習(xí)的自主性,從教師和學(xué)生兩個方面來改善高師古代漢語教學(xué)現(xiàn)狀。同時,高師古代漢語試題庫的建設(shè)具有可行性,它符合高師古代漢語的學(xué)科性質(zhì);符合高師古代漢語教學(xué)實際;符合高師古代漢語教學(xué)改革需要。筆者在參加我校教改項目“高師古代漢語試題庫建設(shè)的探索”并進行了試題庫建設(shè)實踐的基礎(chǔ)上,對高師古代漢語試題庫建設(shè)問題進行了理論和實踐的探索,試圖為高師古代漢語試題庫的建設(shè)提供理論和實踐的參考。全文主要分為三章第一章從理論上闡述了高師古代漢語試題庫建設(shè)的必要性和可行性;第二章針對高師古代漢語的特點及教學(xué)實際,探討了高師古代漢語試題庫建設(shè)的原則,即科學(xué)性、適用性、恰當(dāng)性、開放性和重能力原則,這些原則是高師古代漢語試題庫建設(shè)的基礎(chǔ);第三章結(jié)合自己參加試題庫建設(shè)的實踐,以王力版古代漢語教材為例,論述了高師古代漢語試題庫建設(shè)的方法,主要是在以下四個階段中體現(xiàn)編寫試題、檢驗入庫、試用分析、調(diào)整補充。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 35
大?。?0.18(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 58
大小: 1.56(MB)
子文件數(shù):