-
簡介:文語轉(zhuǎn)換是一種比較高級的、有廣泛應用價值的計算機語音輸出的形式具有廣泛的應用前景該論文針對主要合成基元為詞的漢語文語轉(zhuǎn)換系統(tǒng)從制約其合成音質(zhì)的幾個角度出發(fā)進行研究由于詞的切分的準確率和歧義切分正確率直接影響輸出語音的自然度該文對詞的切分和歧義消除算法進行研究并給出了改進方案即在雙向最大匹配分詞算法的基礎(chǔ)上采用NNSVM來消除交集型歧義韻律特征與合成語句的自然度和連貫性關(guān)系極大該文還從音高、時長和能量幾個角度來研究文語轉(zhuǎn)換系統(tǒng)中的韻律處理概括了詞的基頻、時長、能量在連續(xù)語流中的變化規(guī)則最后從實用化角度出發(fā)開發(fā)出應用于首都機場終端信息系統(tǒng)ATIS的實用的漢語文語轉(zhuǎn)換系統(tǒng)此系統(tǒng)運用波形拼接的合成方法以詞為主要合成基元專用語句為輔助基元系統(tǒng)經(jīng)測聽合成質(zhì)量可以達到新聞廣播水平
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 80
大小: 2.91(MB)
子文件數(shù):
-
簡介:關(guān)鍵詞檢出是語音識別研究中的一個重要領(lǐng)域,其目的是從連續(xù)語音中檢測出并確認給定的若干個特定關(guān)鍵詞。跟關(guān)鍵詞檢出相比,目前連續(xù)語音識別有資源耗費大,速度慢,抗噪能力不強等缺點,這是連續(xù)語音識別短期內(nèi)難以突破的問題所在。而關(guān)鍵詞檢出允許在嘈雜的環(huán)境中使用,因此在當前技術(shù)水平下,許多應用領(lǐng)域不適合連續(xù)語音識別,而要求關(guān)鍵詞檢出,這一課題的研究如能取得突破性進展,則將大大有助于拓寬語音識別系統(tǒng)的應用領(lǐng)域。由于本論文在關(guān)鍵詞檢出方面的研究剛剛起步,且非特定人大詞匯量關(guān)鍵詞檢出系統(tǒng)需要建立詞典,涉及到很多語言學知識,并且需要大型語料庫,因此本論文主要研究了漢語小詞匯量非特定人關(guān)鍵詞檢出算法,結(jié)合漢語語音的特點,提出了一種新的關(guān)鍵詞檢出算法在語音信號預處理階段,首先對信號進行小波變換,然后引入TEAGER能量算子,將連續(xù)語音信號切分成音節(jié);選用MEL倒譜系數(shù)(MFCC)作為語音信號的特征參數(shù);采用連續(xù)隱馬爾可夫模型對關(guān)鍵詞和非關(guān)鍵詞建模;在搜索識別階段,以詞(雙音節(jié))為搜索單位,采用VITERBI算法進行詞內(nèi)解碼,大大減少了搜索空間,提高了搜索效率,降低了算法復雜度;在關(guān)鍵詞確認階段,采用似然比檢驗的值作為置信度,實現(xiàn)了無語法限制的基于識別一確認兩級結(jié)構(gòu)的關(guān)鍵詞檢出。本文用MATLAB70軟件作為編程和測試平臺,用ADOBEAUDITION15在實驗室環(huán)境下錄制語音信號,建立小型語料庫進行離線訓練和在線識別。實驗結(jié)果表明,本論文提出的算法具有有效性及可行性,適用于漢語非特定人小詞匯量關(guān)鍵詞檢出系統(tǒng)。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 43
大?。?1.9(MB)
子文件數(shù):
-
簡介:漢語數(shù)字語音識別MDSR,MARINDIGITSPEECHRECOGNITION是語音識別領(lǐng)域中一個具有廣泛應用背景的分支,在電話語音撥號,門禁系統(tǒng)、身份證號碼確認等領(lǐng)域都有重要的應用價值。但漢語數(shù)字語音識別存在語音的音節(jié)較少等缺點,導致各個數(shù)字之間的混淆度很高,識別起來有相當?shù)睦щy。本文主要研究了目前的漢語數(shù)字語音識別技術(shù),并通過改進來提高其系統(tǒng)的識別性能。從基于語音信號產(chǎn)生的數(shù)字模型出發(fā),研究了一個完整語音識別系統(tǒng)的各個組成部分,包括前期的預處理、語音模型的訓練、識別算法的處理等。本文的主要工作如下1、在討論和比較語音信號各種傳統(tǒng)特征參數(shù)的提取方案,包括線性預測倒譜系數(shù)LPCC、MEL頻率倒譜系數(shù)MFCC的基礎(chǔ)上,研究了基于聽覺特性BARK尺度子波變換的語音特征參數(shù)提取方案來提高參數(shù)的穩(wěn)定性。初步研究了一種基于生物視覺機制基礎(chǔ)上產(chǎn)生的脈沖耦合神經(jīng)網(wǎng)絡(luò)來提取語音特征,并對其進行改進。2、在模式匹配上,在討論傳統(tǒng)的動態(tài)時間彎折DTW算法基礎(chǔ)上,提出了基于密度函數(shù)估計和貝葉斯決策理論而建立的人工神經(jīng)網(wǎng)絡(luò)即概率神經(jīng)網(wǎng)絡(luò)PNN來建立識別模型。3、對模型訓練和識別算法進行了軟件仿真,建立了用于訓練和測試的數(shù)字語音數(shù)據(jù)庫,創(chuàng)建了人機交互界面,并對識別算法的實時性和準確性進行了測試,給出主要的仿真結(jié)果和結(jié)論。最后提出了本課題今后進一步研究和改進的方向。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 57
大?。?1.53(MB)
子文件數(shù):
-
簡介:本研究探討了漢語句子歧義消除的眼動行為研究,分別涉及漢語的詞組、第三人稱代詞與動詞偏向的理解過程,由四個大部分構(gòu)成,第一部分介紹了眼動行為的研究方法與基本理論。具體地講,具有信息加工系統(tǒng)的人在閱讀句子時出現(xiàn)了一系列眼動行為之后便獲得了新的信息,從而構(gòu)成了課文意義的心理表征。目前解釋眼動行為的模型主要有最簡控制模型、視覺控制模型和認知控制理論。跳讀、詞匯加工、視敏度、注意和強化學習都是影響眼動的主要因素。第二部分研究在兩個實驗中以眼動控制方法探討了影響漢語四字詞組歧義出現(xiàn)的因素。INHOFF和WU2005的研究結(jié)果表明在句子理解過程中偏正詞組專科學生中間的兩個字符出現(xiàn)了歧義效應,我們的實驗21結(jié)果得到了相反的結(jié)論;實驗22檢驗了這種詞組出現(xiàn)歧義效應的必要條件即這兩個字符作為先行詞必須出現(xiàn)在句首,這是一種新近性效應。結(jié)果表明這個先行詞是漢語四字詞組歧義出現(xiàn)的必要條件,這符合單一方向的句法分析假設(shè)與先行詞聯(lián)想效應。第三部分研究報告的一項眼動實驗研究以漢語的單數(shù)第三人稱代詞句子探討了潛在先行詞的詞匯特征及其句法特征與代詞所指之間的關(guān)系,結(jié)果表明如果第三人稱代詞的性別與它的所指一致時閱讀的時間便會減少,在不一致時閱讀的時間更長一些,這與第一個句子的主動結(jié)構(gòu)或者被動結(jié)構(gòu)無關(guān),這表明在語言加工過程中如何理解第三人稱代詞,兩個因素即潛在先行詞的詞匯特征及其句法特征強烈地影響著代詞所指的難度。第四部分研究在兩個實驗中以眼動技術(shù)檢驗了影響暫時歧義出現(xiàn)的兩個因素即動詞的偏向效應與可能性效應,實驗41檢驗了DOSC歧義句與SVO句子之間的關(guān)系,與無歧義的SVO句子相比,DOSC結(jié)構(gòu)句子出現(xiàn)歧義是由于主要動詞的偏向效應引起的;實驗42檢驗了動詞偏向效應對DOSC歧義句的影響,結(jié)果表明及物動詞具有偏向效應,很有可能引起DOSC結(jié)構(gòu)句子的歧義,而不及物動詞具有偏向效應的可能性很低,不會引起DOSC結(jié)構(gòu)句子的暫時歧義效應。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 58
大?。?2.38(MB)
子文件數(shù):
-
簡介:本文將領(lǐng)域漢語理解應用于機械加工過程設(shè)計專家系統(tǒng)的人機接口中,通過對用漢語形式表達的用戶需求進行理解和分析,將分析結(jié)果轉(zhuǎn)化成概念設(shè)計的要求,從而使得專家系統(tǒng)更加智能化和人性化。針對領(lǐng)域漢語理解對知識表示和知識庫系統(tǒng)的需求,結(jié)合現(xiàn)有的知識表示方法,建立了知識庫系統(tǒng),設(shè)計并實現(xiàn)了相應的知識庫管理系統(tǒng)。首先,分析了自然語言的特點,以及知識庫系統(tǒng)的發(fā)展,可以看到知識庫技術(shù)對自然語言理解系統(tǒng)起著至關(guān)重要的作用。通過對比現(xiàn)有知識表示方法的優(yōu)缺點,將產(chǎn)生式系統(tǒng)與概念從屬理論相結(jié)合作為知識表示方法。分析了概念、概念的屬性、概念的性質(zhì)、概念的內(nèi)涵與外延、知識庫中概念的關(guān)聯(lián),為以后建立領(lǐng)域過程樹模型提供了理論支持。通過對知識庫中的知識進行分類和整理,利用領(lǐng)域過程樹和概念從屬樹等進行知識表示,降低了知識庫的冗余度,簡化了知識庫,節(jié)省了存儲空間,提高了系統(tǒng)的效率。設(shè)計了知識庫管理系統(tǒng),用以對知識進行管理。最后,將領(lǐng)域漢語理解知識庫應用于機械加工過程設(shè)計專家系統(tǒng)的接口上,并實現(xiàn)了知識庫管理系統(tǒng),結(jié)果較為滿意。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 58
大小: 1.88(MB)
子文件數(shù):
-
簡介:在自然語言處理NLP中,歧義問題一直是研究的重點和難點。它是一項“中間任務”,對于自然語言處理中的許多應用領(lǐng)域具有重要的理論和實踐意義,包括機器翻譯、信息檢索、句法分析、語音合成等,該問題解決的好壞將直接關(guān)系到這些應用問題的效果優(yōu)劣。尤其是短語結(jié)構(gòu)的歧義,它已經(jīng)成為影響句法分析效率和準確率的重要因素。本文主要是在研究獲取支持短語結(jié)構(gòu)消歧的方法基礎(chǔ)上,給出了一整套基于語義相關(guān)度計算的短語結(jié)構(gòu)的歧義消解策略。論文主要從以下幾個方面作了重點研究和創(chuàng)新首先,介紹了短語結(jié)構(gòu)歧義的類型,比較和詳細分析了以往的短語結(jié)構(gòu)歧義消解策略,提出了基于語義的短語結(jié)構(gòu)消歧策略;同時通過比較分析了各種語義學的理論及各種語義知識表示方法后,提出了利用知識圖的知識表示方式來表示語義知識。其次,給出了知識圖中的語義知識資源是根據(jù)知網(wǎng)中語義詞典自動生成的,及在短語分析過程中生成短語圖的原理。本文將把語義知識應用到了語義計算上,詳細分析了基于語義詞典的相似度計算原理,并提出了基于知網(wǎng)語義相關(guān)度計算方法。該方法利用知網(wǎng)中義原之間的縱向和橫向關(guān)系及實例因素計算出不同詞性的相關(guān)度,根據(jù)相似度的對稱性計算實例的影響因素,由此提高語義相關(guān)度的準確率。最后,關(guān)于短語結(jié)構(gòu)的歧義消解的進一步工作進行了總結(jié)和展望。本文提出的基于語義相關(guān)度計算的短語結(jié)構(gòu)消歧模型,使得漢語句法分析效率得到了進一步的提高,在自然語言處理中歧義消歧系統(tǒng)的開發(fā)有一定的指導和借鑒意義。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 54
大?。?2.36(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 56
大?。?0.77(MB)
子文件數(shù):
-
簡介:文學碩士學位論文延邊漢語小說創(chuàng)作延邊漢語小說創(chuàng)作研究研究以天池為中心以天池為中心THESTUDYINTHEFIELDOFVISIONONTHETHESTUDYINTHEFIELDOFVISIONONTHENOVELNOVELOFCHINESEOFYANBIANOFCHINESEOFYANBIANRAGARDAGARD“TIANCHI”“TIANCHI”ASASTHETHECENTREENTRE李玲李玲中國現(xiàn)當代文學中國現(xiàn)當代文學延邊大學學校代碼10184分類號分類號密級UDC學號2011010294延邊大學碩士學位論文延邊大學碩士學位論文延邊漢語小說創(chuàng)作研究以天池為中心研究生姓名李玲培養(yǎng)單位人文社會科學學院指導教師姓名、職稱溫兆海教授學科專業(yè)中國現(xiàn)當代文學研究方向中國現(xiàn)當代作家作品研究論文提交日期2014年5月18日
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 59
大?。?2.26(MB)
子文件數(shù):
-
簡介:詞義消歧WDSENSEDISAMBIGUATION,WSD是計算語言學和自然語言處理領(lǐng)域一個重要的研究課題,也是近些年來該領(lǐng)域的熱點研究問題之一。詞義消歧結(jié)果的好壞直接影響到機器翻譯、信息檢索、句法分析和語音識別等應用領(lǐng)域。因此詞義消歧研究在自然語言處理領(lǐng)域中具有重要的理論和實踐意義。詞義消歧方法有多種,目前基于知識庫的詞義消歧方法研究相對較少。對于這種有別于統(tǒng)計消歧的方法,在開放文本領(lǐng)域表現(xiàn)出明顯的優(yōu)勢,而且該方法優(yōu)于基于語料庫的有指導學習方法。近幾年來本體ONTOLOGY研究迅速發(fā)展,目前在本體的內(nèi)容、本體的表達方式、構(gòu)建規(guī)則、自動化構(gòu)建技術(shù)等諸多方面,都有持續(xù)深入的研究。隨著越來越多高質(zhì)量本體的出現(xiàn),本體的應用越來越多的受人關(guān)注。本文沿著基于知識庫消歧的方向,提出了一種利用中文本體知識庫知網(wǎng)的相關(guān)資源、上下文信息等來進行詞義消歧的一種方法,并通過計算詞語的相關(guān)度和相似度來實現(xiàn)本文的詞義消歧。具體的研究圍繞以下幾個方面現(xiàn)階段,很多詞義消歧的研究大多采用幾個有代表性的歧義詞作為研究與測試的對象,在實際應用中有一定的局限性,因此本文希望能夠針對真實的應用情況,對大規(guī)模文本進行詞義消歧的研究。文中指出對任意輸入的文本進行分詞和詞性標注后,再利用知網(wǎng)字典資源識別出文本中的多義詞,解決了真實應用中存在的問題。利用本體作為詞義消歧的知識庫,避免了人工訓練語料庫獲取詞義的復雜過程,并能提供準確的含義,同時還能對大規(guī)模的多義詞實現(xiàn)消歧。在利用上下文一定大小的窗口提取歧義詞的特征詞時,提出了基于三次互信息的思想來計算歧義詞和上下文詞語的相關(guān)度,有效地區(qū)別了高頻詞和低頻詞,并根據(jù)相關(guān)度的大小,提取出帶有歧義詞大量信息的特征詞。根據(jù)本體是共享概念模型的明確的形式化的規(guī)范說明,是對世界知識的概念化描述,它可以作為自然語言處理系統(tǒng)中的世界知識庫的特點本文主要利用中文知網(wǎng)的資源以及概念和概念之間的關(guān)系,提出了利用改進的相似度計算結(jié)果的大小來判斷歧義詞在特定上下文中的準確含義,從而實現(xiàn)詞義消歧。實驗證明本文的詞義消歧準確率比以前的幾種方法有較大的提高,進一步說明了論文中的詞義消歧方法是可行的和高效的。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 53
大?。?2.63(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 58
大?。?1.43(MB)
子文件數(shù):
-
簡介:耳語音說話人識別在公共場合下的通訊、安全場所的身份鑒定、罪犯識別、電話網(wǎng)絡(luò)查詢與電話銀行等領(lǐng)域都有著一定的實用價值。它是一個較新的研究課題有許多問題尚待解決。由于耳語發(fā)音方式的特殊性加上耳語通話常常在手機方式下進行耳語音說話人識別受說話人發(fā)音狀態(tài)、健康狀況、心理因素及信道環(huán)境因素的影響變得更為突出。因此用正常音建立的說話人識別系統(tǒng)對耳語音說話人識別基本不適用識別性能將大為下降。目前已有的自適應補償方法都將說話人變化和信道環(huán)境變化這兩種因素混在一起不加區(qū)分這樣的處理方式必然會影響耳語音說話人識別的識別效果。為此有必要針對耳語音的特點建立合適的識別模型來實現(xiàn)文本無關(guān)的耳語音說話人識別。本文提出采用聯(lián)合因子分析JFA的方法來解決耳語發(fā)音時受多種因素影響說話人語音特征變異大的問題該方法針對耳語音的特點引入了兩類變化因子說話人自身變化因子和通話信道環(huán)境變化因子。鑒于聯(lián)合因子分析的難點本文提出了一種適用于耳語音說話人識別的簡化的聯(lián)合因子分析方法其最主要的特點是分開估計說話人空間和信道空間因此在算法的復雜度和語音數(shù)據(jù)的需求量上都有很大的下降從而大大降低了運算量和運算時間。本文建立了一種基于簡化的JFA方法的識別模型并且給出了相應的算法在此基礎(chǔ)上實現(xiàn)了耳語發(fā)音方式下與文本無關(guān)的說話人辨認。對本文提出的簡化的JFA識別模型在8種不同的信道環(huán)境情況下分別進行測試實驗證明該模型在信道失配的情況下也能有效地辨認耳語音說話人并與已有的采用MAP、特征映射FEATUREMAPPING和說話人模型合成SMS方法的GMM模型進行比較識別正確率有了明顯的提高。此外還研究了說話人因子數(shù)和信道因子數(shù)對該識別模型性能的影響實驗發(fā)現(xiàn)適當?shù)卦黾诱f話人因子數(shù)和信道因子數(shù)有助于提高識別的正確率但是兩者均存在著一定的飽和問題即繼續(xù)增加說話人因子數(shù)和信道因子數(shù)對識別模型的性能幾乎沒有任何提高。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 84
大?。?3.22(MB)
子文件數(shù):
-
簡介:在語音識別領(lǐng)域漢語語文轉(zhuǎn)換是一個熱點話題隱馬爾可夫模型HMM是語文轉(zhuǎn)換中常用的方法。它能很好地描述語音信號的平穩(wěn)性和可變性近年來倍受國內(nèi)外學者的高度重視但其識別性能卻不能令人滿意。在語文轉(zhuǎn)換的音庫詞庫設(shè)計模式方面也存在多種不同設(shè)計模式。而不同的模式會有不同的占比空間率和轉(zhuǎn)換效率如何找到一種高效的音庫詞庫設(shè)計模式則變得尤為重要。本論文將對這兩方面的改進提出一種的新的算法和設(shè)計模式以提高語文轉(zhuǎn)換的轉(zhuǎn)換效率。語文轉(zhuǎn)換在采樣量化過程中的算法研究一直是一個研究難點且對于語音環(huán)境的要求也非常復雜本論文擬改變以往的傳統(tǒng)HMM研究方法引入了一種改進型的識別算法NHMM進一步提高了語文轉(zhuǎn)換中的轉(zhuǎn)換效率。傳統(tǒng)的HMM算法雖然被廣泛應用但是它自身也存在著一定缺陷比如說由于它只是一個概率和統(tǒng)計理論算法并且是離散型概率統(tǒng)計算法所以它不能很好的描述語音信號的時間相依性且對于量化時的誤差分析也沒有著重考慮這樣會在一定程度上降低語文轉(zhuǎn)換的識別率。因此本文提出了一種能夠引入加權(quán)函數(shù)的算法NHMM算法。NHMM算法是本論文在HMM算法的基礎(chǔ)上提出的一種改進型算法就是為了進一步減少語音信號在量化的過程中出現(xiàn)的較大誤差。為了提高語音信號的識別率在NHMM算法中加入了一個新變量量化誤差E作為加權(quán)值加入到HMM算法的參數(shù)序列中讓其作為HMM算法的一個參數(shù)參與運算這樣將量化誤差作為考慮因素的改進型HMM算法在識別率上相比傳統(tǒng)的HMM算法有了很大的提高。在設(shè)計音庫詞庫方面在查閱大量的關(guān)于漢語語文轉(zhuǎn)換的相關(guān)文獻的過程中發(fā)現(xiàn)很多研究都是將重點放在語文轉(zhuǎn)換中的音庫設(shè)計上都是在力求音庫文件的最大覆蓋性但詳盡化的音庫文件設(shè)計必然導致庫體容量的快速增大這對終端的硬件配置提出了非常大的挑戰(zhàn)如果占用大量系統(tǒng)資源必然導致其可行性下降。本論文的研究切入點是盡量精簡語文轉(zhuǎn)換的音庫文件這必然導致在語文轉(zhuǎn)換時對人的口語錄入的準確性進行了忽略考慮。從粗糙采樣的設(shè)計理念出發(fā)模糊化采樣精度進一步提高了語文轉(zhuǎn)換中詞庫匹配的效率。通過三種庫體的設(shè)計結(jié)構(gòu)的優(yōu)劣比較最終確定一種最高效的庫體設(shè)計模式。在最終的方法中詞庫結(jié)構(gòu)采用三段格式分別是單字表、雙字表和詞庫。通過這種設(shè)計模式在不降低語文轉(zhuǎn)換精確度的前提下對語音實行粗糙性錄入降低音庫容量的同時詳實化詞庫結(jié)構(gòu)。本論文提出的基于精簡語文轉(zhuǎn)換的詞庫設(shè)計理念具有較強的新穎性和實用性。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 63
大?。?7.38(MB)
子文件數(shù):
-
簡介:本文針對漢語框架語義角色自動標注的研究是來源于國家自然科學基金項目“漢語框架語義依存圖自動抽取關(guān)鍵技術(shù)研究NO60970053”。該項目的漢語框架語義依存圖自動抽取是實現(xiàn)漢語句子語義分析的一種新途徑,因此漢語框架語義角色標注對實現(xiàn)漢語框架語義分析具有重要的意義。目前語義角色標注的研究大多基于統(tǒng)計機器學習模型,研究表明制約語義角色標注性能的主要因素為統(tǒng)計機器學習中的特征選擇問題。本文基于漢語框架網(wǎng),針對特征選取問題,利用樹條件隨機場TREECONDITIONALROMFIELDS,TCRF模型,研究了基于依存特征的漢語框架語義角色標注。主要研究內(nèi)容包括1研究了基于詞、詞性及其組合特征的基線框架語義角色標注模型。其中選取詞、詞性及其組合為基本特征,按照窗口大小不同構(gòu)建了3種基線特征模板,最終基線模型在“發(fā)明”、“查看”、“擁有”框架下的最優(yōu)F值分別為5536%,5226%6619%。2研究了基于依存特征的漢語框架語義角色標注模型。在基礎(chǔ)特征的基礎(chǔ)上,加入當前節(jié)點的依存父子節(jié)點、父子依存關(guān)系及其組合特征,并依據(jù)特征組合及窗口大小不同構(gòu)建了21種擴展特征模板,最終在“發(fā)明”“查看”“擁有”框架下獲得的最優(yōu)F值分別為5830%,5529%,6724%。3研究了漢語框架語義角色標注中的特征貢獻情況。實驗結(jié)果顯示,在詞、詞性及其組合特征的基礎(chǔ)上融入依存句法層面的特征,能夠提升漢語框架語義角色標注的F值進一步比較了依存特征對不同長度框架語義角色的標注影響,發(fā)現(xiàn)依存特征對較長框架語義角色標注的結(jié)果較好,這其中子節(jié)點比父節(jié)點特征更為重要,依存關(guān)系比依存節(jié)點更為重要。本文的主要貢獻在于全面研究了依存句法特征中的父子節(jié)點、父子依存關(guān)系及其組合特征對漢語框架語義角色標注的作用,這些結(jié)論都將為進一步面向大規(guī)模、開放式的漢語框架語義角色標注研究提供了重要的特征選擇依據(jù)。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 50
大?。?2.79(MB)
子文件數(shù):
-
簡介:隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息的理解和處理越來越受到人們的關(guān)注。內(nèi)容信息的理解需要自然語言的語義分析技術(shù),而自然語言的語義分析離不開相應的語義詞典的支持,因此語義詞典的建設(shè)已經(jīng)成為自然語言處理的一項基礎(chǔ)性工作。語義詞典作為自然語言處理的一項基礎(chǔ)資源,不僅對分詞、命名實體識別、詞義消歧等自然語言處理的底層技術(shù)有幫助,而且在問答系統(tǒng)、信息檢索、文本分類等上層應用中也大有用武之地。為了建設(shè)一部實用的、能在中文信息處理領(lǐng)域中發(fā)揮重要作用的詞典,本文構(gòu)建了一部具有簡單結(jié)構(gòu)、收詞量足夠大的漢語語義詞典詞脈,不僅整合了已有的語義詞典,如同義詞詞林(擴展版)、知網(wǎng)等,還充分利用了互聯(lián)網(wǎng),融入了網(wǎng)絡(luò)上的詞條資源,如百度百科、搜狗細胞詞庫等,從而在擴大詞典規(guī)模的同時融入了新詞信息。詞脈采用五層分類體系描述單詞詞義,詞語之間體現(xiàn)了良好的層次關(guān)系;每個詞義下是一個同義詞集合,每個集合中的單詞互為同義關(guān)系或同類關(guān)系。本文首先整合了同義詞詞林(擴展版)和知網(wǎng)這兩部詞典構(gòu)建了詞脈的通用領(lǐng)域部分。將知網(wǎng)融入到同義詞詞林(擴展版)體系中,首先采用基于同義詞的算法融合,對于采用同義詞算法沒有融入的知網(wǎng)中的單詞,再采用基于同類詞的算法。人工校對自動融合的結(jié)果后,構(gòu)成了詞脈的通用領(lǐng)域部分。然后構(gòu)建了詞脈中的專有領(lǐng)域部分。根據(jù)百度百科的特點,采用基于詞條的開放分類標簽的自動融合方法,融入了83部專有領(lǐng)域詞典,1751756個單詞;根據(jù)搜狗細胞詞庫的特點提出了手工標注搜狗細胞詞庫的分類體系到詞脈的詞義體系的映射關(guān)系的融合方法,融入了26部專有領(lǐng)域詞典,4417937個單詞。接下來,對詞脈作了規(guī)范化處理。采用SVM算法識別了“人名”領(lǐng)域詞典中正確的人名,排除了分類錯誤的單詞,在測試集上的F值達到了99926%,比BASELINE方法高出了約7個百分點,滿足了應用需求。最后,為了便于用戶更好地了解詞脈中的數(shù)據(jù),開發(fā)了詞脈在線系統(tǒng)。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 68
大?。?1.54(MB)
子文件數(shù):
-
簡介:隨著互聯(lián)網(wǎng)的迅猛發(fā)展特別是WEB20的興起越來越多的人們以網(wǎng)絡(luò)為媒介發(fā)表他們對某個事件或事物的意見和評論。意見挖掘得到了廣泛地應用并引起了自然語言處理等相關(guān)領(lǐng)域的極大關(guān)注主觀性識別和情感分類是意見挖掘中的兩個關(guān)鍵問題其主要任務就是將文本中人們所表達的意見信息從客觀性的信息中識別出來并確定其情感傾向。這兩個問題的解決對意見問答系統(tǒng)、信息抽取、和意見文摘等自然語言處理系統(tǒng)都有著極其重要的意義。本文在統(tǒng)計方法和模糊集合論框架下研究漢語句子的主觀性識別和情感分類問題。為了降低問題的復雜性提高系統(tǒng)性能本文根據(jù)漢語句子的特點分析句子中不同粒度層面的主觀性及情感傾向并以它們?yōu)榛救蝿站€路根據(jù)不同層次粒度的融合策略解決漢語句子層面的主觀性識別和情感分類問題。具體地講本文從如下四個方面進行研究1主觀性識別是意見挖掘中首先要解決的問題之一。面向大規(guī)模開放應用本文提出了一整套漢語句子主觀性識別解決方案包括1在分析漢語主觀性表述的基礎(chǔ)上給出了一種基于CHISQUARE的主觀性特征選擇方法;2針對漢語主觀性意見表述與客觀事實表述的差異性引入情感密度概念提出一種基于情感密度的漢語句子主觀性識別方法3在漢語句子的情感密度的基礎(chǔ)上以句子的情感密度區(qū)間為特征描述了一種情感密度和貝葉斯分類器相融合的漢語句子主觀性分類方法。實驗結(jié)果表明本文提出的漢語句子主客觀分類方法具有較強的適應性能夠有效地將文本中的主觀性意見表述從客觀性事實陳述中分離出來并取得了較理想的實驗結(jié)果。2詞語是構(gòu)成自然語言的基本單位其主觀性是進一步進行短語和句子主觀性分析的基礎(chǔ)。針對漢語詞語主觀性存在的兼類問題和強度問題本文在計算詞語的主觀性權(quán)重的基礎(chǔ)上提出一種對數(shù)線性模型和模糊集合相結(jié)合的漢語詞語主觀性強度學習方法。其基本思想是先采用對數(shù)線性模型對語料中的候選主觀性詞語進行主觀性權(quán)重預測然后再在模糊集合的框架下融合詞語的主觀性權(quán)重相關(guān)信息構(gòu)造詞語主觀性強度的模糊集合及對應的隸屬函數(shù)并以此判別詞語的主觀性強度類別最后應用于漢語句子的主觀性識別之中。實驗結(jié)果表明由于引入詞語的主觀性強度類別本文方法取得了良好的效果。3引入漢語詞語的結(jié)構(gòu)信息有助于漢語詞語的情感傾向預測。針對漢語詞語情感傾向難于預測的問題本文在深入分析了漢語詞語結(jié)構(gòu)與詞語情感傾向的規(guī)律的基礎(chǔ)上針對其中較難分辨的未登錄詞極性預測問題將詞語中語素等結(jié)構(gòu)特征有效結(jié)合提出了一種統(tǒng)計方法框架下的基于語素的漢語詞語情感傾向自動預測方法。并在討論詞匯層面極性預測的基礎(chǔ)上提出了一種基于規(guī)則的短語極性計算方法最后在詞語和短語的極性計算基礎(chǔ)上給出了基于閾值法的句子情感分類方法。實驗結(jié)果表明與其他方法相比較由于引入句子中多層面的語言信息本文方法較好的解決了漢語句子情感分類問題。4本文最后主要研究基于多粒度融合的漢語句子情感分類方法。在深入研究了語素、詞語和短語層面的主觀性及情感傾向的基礎(chǔ)上針對情感句子表述的隱晦性和模糊性并結(jié)合漢語本身的特點將上下文的多粒度信息融合并引入到整個句子的情感分類中提出了一個基于多粒度融合與模糊集合相結(jié)合的漢語句子分類方法。實驗結(jié)果表明與傳統(tǒng)的情感分類方法相比本文提出的基于模糊集合的多粒度融合的漢語句子情感分類方法從細粒度到粗粒度較精確的識別了漢語句子中各層次的情感強度及情感傾向因此明顯地提高漢語句子級別的情感分類的精確率和召回率。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 88
大?。?2.78(MB)
子文件數(shù):