-
簡(jiǎn)介:作為自然語(yǔ)言理解的一項(xiàng)基礎(chǔ)工作,詞語(yǔ)語(yǔ)義相似度度量一直是研究的重點(diǎn)。語(yǔ)義相似度度量本身是一個(gè)中間任務(wù),它是大多數(shù)自然語(yǔ)言處理任務(wù)中一個(gè)必不可少的中間層次,在自然語(yǔ)言處理中有著廣泛的應(yīng)用,如詞義消歧、信息檢索以及機(jī)器翻譯等。本文的核心內(nèi)容是漢語(yǔ)詞語(yǔ)語(yǔ)義相似度算法研究以及如何將其應(yīng)用于跨語(yǔ)言信息檢索CROSSLANGUAGEINFMATIONRETRIEVAL,CLIR領(lǐng)域。本文首先對(duì)語(yǔ)義相似度度量算法進(jìn)行綜述,然后重點(diǎn)描述基于HOW的語(yǔ)義相似度度量算法,提出根據(jù)知識(shí)詞典描述語(yǔ)言KNOWLEDGEDICTIONARYMARKUPLANGUAGE,KDML的結(jié)構(gòu)特性將詞語(yǔ)語(yǔ)義相似度分為三部分進(jìn)行計(jì)算,每部分采用最大匹配的算法,同時(shí)加入義原深度信息以區(qū)別對(duì)待不同信息含量的義原。較以往同類算法,其計(jì)算結(jié)果具有區(qū)分度,更加符合人的主觀感覺。本文嘗試將所建立的漢語(yǔ)語(yǔ)義相似度度量模式應(yīng)用于跨語(yǔ)言信息檢索系統(tǒng)。跨語(yǔ)言信息檢索結(jié)合傳統(tǒng)文本信息檢索技術(shù)和機(jī)器翻譯技術(shù),在多方面涉及到語(yǔ)義問題,是語(yǔ)義相似度良好的切入點(diǎn)。兩者的結(jié)合主要體現(xiàn)在兩方面1將語(yǔ)義相似度度量應(yīng)用于查詢翻譯,利用語(yǔ)義相似度對(duì)查詢關(guān)鍵詞進(jìn)行消歧翻譯,提高翻譯質(zhì)量;2將語(yǔ)義相似度應(yīng)用于查詢擴(kuò)展,使擴(kuò)展內(nèi)容與原查詢具有更高相關(guān)性,以提高檢索的召回率和準(zhǔn)確率。本文提出相對(duì)客觀的評(píng)價(jià)標(biāo)準(zhǔn),如為單獨(dú)衡量詞義消歧的性能,而使用第三屆詞義消歧系統(tǒng)評(píng)價(jià)會(huì)議THE3RDEVALUATINGWDSENSEDISAMBIGUATIONSYSTEMS,SENSEVAL3語(yǔ)料進(jìn)行測(cè)試;為衡量應(yīng)用語(yǔ)義相似度于跨語(yǔ)言檢索后的性能,又使用第九屆文本檢索會(huì)議THE9THTEXTRETRIEVALCONFERENCE,TREC9CLIR評(píng)價(jià)任務(wù)的查詢集、語(yǔ)料庫(kù)和結(jié)果集進(jìn)行評(píng)估。這使得我們的實(shí)驗(yàn)結(jié)果相對(duì)公正客觀,具有一定可比性。本文對(duì)原有英漢跨語(yǔ)言信息檢索系統(tǒng)進(jìn)行一定程度的改進(jìn),使得各種相關(guān)算法都可方便地在系統(tǒng)中進(jìn)行集成,成為一個(gè)研究跨語(yǔ)言信息檢索的實(shí)驗(yàn)平臺(tái),其系統(tǒng)的設(shè)計(jì)思想充分體現(xiàn)模塊化和擴(kuò)展性。綜上,本文通過綜合分析主流的語(yǔ)義相似度算法,而提出一種新的基于HOW的漢語(yǔ)語(yǔ)義相似度算法,并給出其在英漢跨語(yǔ)言信息檢索中的嘗試性應(yīng)用,希望能給相關(guān)領(lǐng)域的研究者有所借鑒。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 58
大?。?6.15(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著信息時(shí)代的到來網(wǎng)絡(luò)在人們生活中的重要性越來越大。而不管網(wǎng)絡(luò)中各種技術(shù)怎樣革新人們都需要從海量數(shù)據(jù)里面找到自己所需要的信息。由此可見無論技術(shù)怎樣進(jìn)步搜索引擎的重要性都不會(huì)改變。目前傳統(tǒng)的搜索引擎大多基于關(guān)鍵字查詢對(duì)于用戶輸入的復(fù)合結(jié)構(gòu)會(huì)被視作離散的字符串集把原本完整的復(fù)合結(jié)構(gòu)打碎成孤立的單詞。用戶的需求也被割裂從而導(dǎo)致準(zhǔn)確率的下降。這是本文的應(yīng)用背景及研究起始點(diǎn)。另一方面在自然語(yǔ)言處理中復(fù)合結(jié)構(gòu)也普遍出現(xiàn)因此尋找適合對(duì)復(fù)合結(jié)構(gòu)進(jìn)行語(yǔ)義解釋的理論和方法具有重要的理論研究意義和廣闊的應(yīng)用價(jià)值。目前對(duì)于漢語(yǔ)復(fù)合結(jié)構(gòu)概念圖的標(biāo)引已經(jīng)基本成熟但大部分都是通過手工來完成對(duì)于浩瀚的漢語(yǔ)復(fù)合結(jié)構(gòu)而言單純采用手工標(biāo)引基本無法完成。因此如果能夠在復(fù)合結(jié)構(gòu)原子概念圖的基礎(chǔ)上探究到原子概念圖的復(fù)合運(yùn)算那么對(duì)于真正實(shí)現(xiàn)通過漢語(yǔ)復(fù)合結(jié)構(gòu)概念圖的方式提高搜索精度會(huì)有一定的貢獻(xiàn)。本文研究的是漢語(yǔ)復(fù)合結(jié)構(gòu)的概念圖復(fù)合運(yùn)算復(fù)合結(jié)構(gòu)是由兩個(gè)或兩個(gè)以上的詞直接組合而成。復(fù)合結(jié)構(gòu)的概念圖是指利用概念圖的方式來表示漢語(yǔ)的整個(gè)復(fù)合結(jié)構(gòu)。本文的研究從實(shí)例分析出發(fā)嘗試在內(nèi)涵邏輯模型下探究復(fù)合結(jié)構(gòu)詞與詞之間的可能存在的關(guān)系以及之間可能存在的操作從而探究復(fù)合結(jié)構(gòu)中詞與詞之間可能存在的概念圖復(fù)合運(yùn)算。本文的主要工作為通過分析用戶查詢?nèi)罩局械膹?fù)合結(jié)構(gòu)為復(fù)合結(jié)構(gòu)中原子概念建立原子概念圖庫(kù)然后通過對(duì)于漢語(yǔ)復(fù)合結(jié)構(gòu)的預(yù)處理定義復(fù)合結(jié)構(gòu)詞與詞之間概念圖的復(fù)合運(yùn)算。其中主要的運(yùn)算方式有3種填值運(yùn)算添加屬性名和屬性值對(duì)運(yùn)算抑制屬性名和屬性值對(duì)運(yùn)算。從語(yǔ)義語(yǔ)法角度分為修飾關(guān)系和聯(lián)合關(guān)系。其中修飾關(guān)系包括鄰近詞復(fù)合運(yùn)算跨詞復(fù)合運(yùn)算未登錄詞運(yùn)算借代修辭運(yùn)算。聯(lián)合關(guān)系包括多中心概念運(yùn)算。本文的創(chuàng)新性工作主要有以下方面1打開單個(gè)概念的內(nèi)涵邏輯用LT;EAVGT;的方法表示概念的內(nèi)涵邏輯。從而從深層語(yǔ)義上挖據(jù)詞語(yǔ)的內(nèi)涵達(dá)到深層次挖掘詞語(yǔ)內(nèi)涵邏輯的目的。2通過分析漢語(yǔ)復(fù)合結(jié)構(gòu)詞與詞之間的各種關(guān)系提出了漢語(yǔ)復(fù)合結(jié)構(gòu)詞之間的各種運(yùn)算從而在一定程度上可以達(dá)到自動(dòng)生成漢語(yǔ)復(fù)合結(jié)構(gòu)概念圖的目的。對(duì)于搜索引擎的語(yǔ)義查詢有一定的幫助從而有可能提高搜索的精度。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 70
大?。?3.15(MB)
子文件數(shù):
-
簡(jiǎn)介:關(guān)鍵詞識(shí)別是語(yǔ)音識(shí)別研究中的一個(gè)重要領(lǐng)域其目的是從連續(xù)語(yǔ)音中檢測(cè)并確認(rèn)給定的若干個(gè)特定關(guān)鍵詞跟關(guān)鍵詞識(shí)別相比目前連續(xù)語(yǔ)音識(shí)別有資源耗費(fèi)大速度慢抗噪能力不強(qiáng)等缺點(diǎn)這是連續(xù)語(yǔ)音識(shí)別短期內(nèi)難以突破的問題所在而關(guān)鍵詞識(shí)別允許在嘈雜的環(huán)境中使用因此在當(dāng)前技術(shù)水平下許多應(yīng)用領(lǐng)域不適合連續(xù)語(yǔ)音識(shí)別而要求關(guān)鍵詞識(shí)別這一課題的研究如能取得突破性進(jìn)展則將大大有助于拓寬語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用領(lǐng)域而信息檢索顯然是一個(gè)有很好應(yīng)用前景的領(lǐng)域本文主要內(nèi)容是關(guān)鍵詞識(shí)別技術(shù)及語(yǔ)音檢索系統(tǒng)研究與實(shí)現(xiàn)提供了一個(gè)性能優(yōu)良的關(guān)鍵詞識(shí)別引擎通過系統(tǒng)測(cè)試在正確率為821%的情況下召回率達(dá)到884%并在此引擎基礎(chǔ)上開發(fā)了面向特定網(wǎng)站的語(yǔ)音檢索系統(tǒng)SAS和基于P2P架構(gòu)的語(yǔ)音檢索平臺(tái)對(duì)關(guān)鍵詞識(shí)別的一些方法做了改進(jìn)以獲取良好的關(guān)鍵詞識(shí)別正確率和較低的虛報(bào)指數(shù)
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 70
大小: 2.21(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 61
大?。?1.67(MB)
子文件數(shù):
-
簡(jiǎn)介:在自然語(yǔ)言理解方面符號(hào)主義與聯(lián)接主義目前都相繼遇到了巨大的障礙在這種情況下一種非常自然的考慮就是能否將兩者結(jié)合在一起來擺脫目前自然語(yǔ)言研究的困境而語(yǔ)義神經(jīng)網(wǎng)絡(luò)就是這樣一種思想方法它打破傳統(tǒng)的基于規(guī)則的線性的理解模式把自然語(yǔ)言理解過程看成是語(yǔ)言文字信號(hào)在人腦中激活相應(yīng)的神經(jīng)元并建立激活語(yǔ)義神經(jīng)網(wǎng)絡(luò)的過程如能實(shí)現(xiàn)這一思想其意義是不言而喻的但目前其研究工作才剛剛起步研究者們還僅僅只給出了構(gòu)思和模型另外一方面漢語(yǔ)的機(jī)器理解一直都是難點(diǎn)無論是規(guī)則法還是統(tǒng)計(jì)法都未針對(duì)漢語(yǔ)的特點(diǎn)系統(tǒng)地提出一套分析方法我們發(fā)現(xiàn)語(yǔ)義神經(jīng)網(wǎng)絡(luò)以語(yǔ)義分析為主這正好符合漢語(yǔ)作為分析型語(yǔ)言的特點(diǎn)它語(yǔ)義神經(jīng)網(wǎng)絡(luò)以概念之間的語(yǔ)義關(guān)系為依托這又能很好地解決漢語(yǔ)語(yǔ)義上的模糊性和詞性劃分上的困難問題故本文的工作就是模擬并初步實(shí)現(xiàn)這個(gè)語(yǔ)義神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)漢語(yǔ)表層語(yǔ)義的理解我們?cè)谖闹性O(shè)計(jì)了語(yǔ)義神經(jīng)網(wǎng)絡(luò)神經(jīng)元的模型給出了神經(jīng)元的結(jié)構(gòu)、方法的定義和描述并對(duì)漢語(yǔ)表層語(yǔ)義關(guān)系進(jìn)行了初步的分析同時(shí)創(chuàng)建了概念本體庫(kù)給出了概念本體的定義以及描述建立了它與神經(jīng)元的映射關(guān)系并在此基礎(chǔ)上引入?yún)f(xié)商機(jī)制來保證神經(jīng)元之間有序地進(jìn)行自主連接定義了協(xié)商模型和協(xié)商語(yǔ)言給出了SNN的協(xié)商算法由此自然語(yǔ)言理解過程就是嵌套本體知識(shí)的神經(jīng)元通過相互通訊和協(xié)商達(dá)成一定的協(xié)議并產(chǎn)生相應(yīng)動(dòng)作的過程最后本文做了部分句型的試驗(yàn)結(jié)果顯示用語(yǔ)義神經(jīng)網(wǎng)絡(luò)用于自然語(yǔ)言理解是基本可行的
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 57
大?。?1.71(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 37
大?。?2.56(MB)
子文件數(shù):
-
簡(jiǎn)介:人工耳蝸是目前唯一能使重度耳聾者重獲聽力的醫(yī)學(xué)假體隨著集成電路和語(yǔ)音處理技術(shù)的飛速發(fā)展人工耳蝸的性能也在逐步提高和完善為耳聾患者獲得更多質(zhì)量更好的聽覺感受提供了可能。人工耳蝸是將語(yǔ)音信號(hào)通過體外語(yǔ)音處理器編碼后發(fā)送脈沖到耳蝸內(nèi)的植入電極通過電刺激聽神經(jīng)代替耳聾者受損的毛細(xì)胞產(chǎn)生聽覺。關(guān)于人工耳蝸的研究國(guó)外已經(jīng)有較為成熟的理論基礎(chǔ)和臨床經(jīng)驗(yàn)近年來隨著經(jīng)濟(jì)發(fā)展我國(guó)聽障人士也開始受益于人工耳蝸對(duì)聽力的幫助。然而國(guó)外的研究經(jīng)驗(yàn)和成果對(duì)我國(guó)人工耳蝸的發(fā)展并不完全適用漢語(yǔ)的聲調(diào)特性對(duì)語(yǔ)義的影響至關(guān)重要這使得在我國(guó)人工耳蝸在編碼處理上的難度要遠(yuǎn)大于西方發(fā)達(dá)國(guó)家。而在人工耳蝸植入者的日常生活中除了人工耳蝸本身性能之外影響語(yǔ)音感知能力另外一個(gè)不可避免的干擾便是噪聲。因此研究人工耳蝸患者的漢語(yǔ)可懂度的影響因素和患者的發(fā)聲能力對(duì)于人工耳蝸在我國(guó)的發(fā)展和改進(jìn)有重要的指導(dǎo)意義。本文對(duì)我國(guó)人工耳蝸植入者的漢語(yǔ)聲調(diào)識(shí)別能力和發(fā)聲能力進(jìn)行了分析研究這對(duì)改進(jìn)人工耳蝸性能及提高植入者生活質(zhì)量具有較大參考價(jià)值。論文對(duì)漢語(yǔ)語(yǔ)音、聲調(diào)識(shí)別及發(fā)聲能力的影響因素進(jìn)行了分析并對(duì)包含大量聲調(diào)信息的基頻提取方法做出改進(jìn)以更好的得到和分析人工耳蝸植入的聲調(diào)認(rèn)知能力。首先對(duì)噪聲環(huán)境下人工耳蝸語(yǔ)音可懂度的影響因素進(jìn)行了仿真實(shí)驗(yàn)將語(yǔ)音信號(hào)進(jìn)行人工耳蝸編碼仿真處理后再合成采用正常聽力被試者進(jìn)行測(cè)聽。在不同的信噪比和刺激衰減速率下本次實(shí)驗(yàn)研究分析了刺激擴(kuò)散衰減速率對(duì)噪聲環(huán)境下語(yǔ)音可懂度以及聲調(diào)識(shí)別的影響。其次對(duì)語(yǔ)音信號(hào)的基頻提取方法進(jìn)行改進(jìn)將包含大量聲調(diào)信息的基頻檢測(cè)作為判別聲調(diào)特征的主要手段。本文在經(jīng)典的基頻提取方法的基礎(chǔ)上提出了兩種改進(jìn)的基音周期檢測(cè)方法第一種方法結(jié)合平均能量幅度差函數(shù)AMDF和自相關(guān)函數(shù)ACF使基頻周期處的峰值點(diǎn)更為突出尖銳提高了基頻檢測(cè)的抗噪性第二種方法通過線性殘差LPC系數(shù)構(gòu)成的逆濾波器對(duì)語(yǔ)音信號(hào)的逆濾波去除聲道響應(yīng)和噪聲干擾再對(duì)殘差信號(hào)進(jìn)行倒譜法檢測(cè)語(yǔ)音周期。最后對(duì)人工耳蝸植入兒童的聲調(diào)發(fā)聲能力進(jìn)行了客觀評(píng)估評(píng)價(jià)標(biāo)準(zhǔn)為語(yǔ)音質(zhì)量評(píng)估算法PESQ的得分和發(fā)聲材料的基頻特征。通過人工耳蝸植入兒童發(fā)聲錄音實(shí)驗(yàn)的數(shù)據(jù)處理對(duì)四個(gè)聲調(diào)發(fā)聲的語(yǔ)音質(zhì)量及各自的基頻特點(diǎn)和常見錯(cuò)誤進(jìn)行了的分析。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 58
大?。?1.3(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 51
大?。?1.04(MB)
子文件數(shù):
-
簡(jiǎn)介:語(yǔ)音關(guān)鍵詞檢測(cè)SPOKENTERMDETECTIONSTD是指用戶提供文本形式的查詢請(qǐng)求系統(tǒng)從語(yǔ)音資源庫(kù)中返回與用戶查詢相關(guān)的語(yǔ)音片段。它是語(yǔ)音識(shí)別的一個(gè)重要領(lǐng)域有著廣闊的應(yīng)用前景。語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)一般分離線建立索引和在線檢測(cè)結(jié)果兩個(gè)階段質(zhì)量好的索引往往能提高系統(tǒng)檢測(cè)的準(zhǔn)確性。在實(shí)際的系統(tǒng)中通常基于語(yǔ)音識(shí)別的結(jié)果為語(yǔ)音資源庫(kù)建立索引。由于LATTICE有著結(jié)構(gòu)合理、信息含量豐富的優(yōu)點(diǎn)目前大多數(shù)語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)都是基于LATTICE建立索引的。LATTICE本身包含了聲學(xué)似然比和語(yǔ)言模型概率因此可以很方便的獲得LATTICE中局部路徑的后驗(yàn)概率將其作為局部路徑的置信測(cè)度是建立索引的一種簡(jiǎn)單有效的方法。但是傳統(tǒng)的N元文法模型如二元文法即BIGRAM模型沒有考慮當(dāng)前觀測(cè)詞和與其相隔一定距離的詞間的相關(guān)性信息因而存在一定的信息丟失。本文利用長(zhǎng)距離的BIGRAM模型能夠從不同的層次表達(dá)單詞之間的語(yǔ)法和語(yǔ)義信息基于LATTICE圖形結(jié)構(gòu)和長(zhǎng)距離的BIGRAM模型而不是傳統(tǒng)N元文法模型建立索引將會(huì)改善索引的質(zhì)量和系統(tǒng)的檢測(cè)性能。本文考察了基于不同距離BIGRAM模型的語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)的性能結(jié)果表明整合多種距離長(zhǎng)距離BIGRAM模型語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)的檢測(cè)結(jié)果能夠獲得比基于傳統(tǒng)NGRAM模型的語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)更高的識(shí)別召回率。在面向新聞數(shù)據(jù)庫(kù)的語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)中新聞?wù)Z音數(shù)據(jù)是構(gòu)建語(yǔ)音識(shí)別器的理想語(yǔ)料。在語(yǔ)音關(guān)鍵詞檢測(cè)系統(tǒng)的前端需要構(gòu)建語(yǔ)音識(shí)別器將語(yǔ)音資源轉(zhuǎn)化為文本表示。但是目前的商業(yè)新聞?wù)Z料普遍存在標(biāo)注不夠精細(xì)的問題標(biāo)注是段落級(jí)而非語(yǔ)句級(jí)因此不能直接用來完成語(yǔ)音識(shí)別的相關(guān)任務(wù)。本文提出了一種基于語(yǔ)音識(shí)別技術(shù)的自動(dòng)切分新聞?wù)Z料的方法。該方法構(gòu)建線性的識(shí)別網(wǎng)絡(luò)并在句間添加可選的靜音模型對(duì)不夠精細(xì)的語(yǔ)音段進(jìn)行解碼之后根據(jù)語(yǔ)音幀在靜音模型上是否駐留以及駐留時(shí)間的長(zhǎng)短來判斷是否需要對(duì)段落級(jí)的語(yǔ)音進(jìn)行切分。實(shí)驗(yàn)表明本方法在語(yǔ)料時(shí)長(zhǎng)低于11分鐘的情況下具有較好的性能。因此該方法是對(duì)段落級(jí)的語(yǔ)音進(jìn)行精細(xì)加工的一種有效方法。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 58
大?。?1.33(MB)
子文件數(shù):
-
簡(jiǎn)介:本文對(duì)漢語(yǔ)動(dòng)賓搭配及其語(yǔ)義關(guān)系標(biāo)注等技術(shù)作了較為深入的研究。整理并修訂了動(dòng)賓搭配庫(kù)的設(shè)計(jì)原則和基本框架,并初步建成了具有一定規(guī)模的動(dòng)賓搭配庫(kù)。本文的主要工作及主要結(jié)論如下1提出了一種基于條件隨機(jī)場(chǎng)的類層疊算法識(shí)別動(dòng)賓搭配,利用該方法層疊刪除最里層搭配,解決了多嵌套形式的搭配難以識(shí)別的問題,取得了良好的效果。2以朱德熙、呂叔湘、丁樹聲,呂冀平等語(yǔ)言學(xué)大家對(duì)語(yǔ)義關(guān)系的論證為依據(jù),以HOW語(yǔ)義知識(shí)庫(kù)資源為依托,通過對(duì)從大規(guī)模語(yǔ)料中抽取的動(dòng)賓搭配進(jìn)行人工語(yǔ)義關(guān)系劃分,經(jīng)過反復(fù)修改最終歸納出二十種動(dòng)賓搭配語(yǔ)義關(guān)系類型。3利用正交策略對(duì)特征模板進(jìn)行組合優(yōu)化,自動(dòng)標(biāo)注動(dòng)賓語(yǔ)義關(guān)系類型。并且嘗試無上下文的動(dòng)賓搭配語(yǔ)義關(guān)系的自動(dòng)標(biāo)注研究。4設(shè)計(jì)并實(shí)現(xiàn)搭配庫(kù)構(gòu)建平臺(tái),采用人機(jī)互助的方式構(gòu)建一個(gè)具有11萬搭配并帶有語(yǔ)義關(guān)系標(biāo)注和語(yǔ)義信息的搭配庫(kù)。隨著語(yǔ)義研究的日益深入,自然語(yǔ)言理解已經(jīng)成為NLP領(lǐng)域的一種理想境界。缺乏語(yǔ)義知識(shí)、語(yǔ)法知識(shí)、詞匯搭配等知識(shí),自然語(yǔ)言理解好比是“無源之水,無本之木”,因此,本文的課題作為一項(xiàng)基礎(chǔ)研究工程,有很好的應(yīng)用前景。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 62
大?。?8.33(MB)
子文件數(shù):
-
簡(jiǎn)介:對(duì)于句子進(jìn)行分析通常要滿足句子分析的功能和意義兩個(gè)標(biāo)準(zhǔn)。滿足這兩條標(biāo)準(zhǔn)通常要求對(duì)句子進(jìn)行淺層的分析同時(shí)也要對(duì)句子進(jìn)行深層的分析。漢語(yǔ)作為世界上使用人數(shù)最多的語(yǔ)言對(duì)于漢語(yǔ)句子的分析也就顯得尤為重要。本論文對(duì)漢語(yǔ)句子分析的一些關(guān)鍵技術(shù)進(jìn)行了研究。對(duì)于句子采用依存語(yǔ)法體系進(jìn)行句法分析然后在構(gòu)建的語(yǔ)義依存模式樹庫(kù)基礎(chǔ)上通過基于DEF樹形態(tài)相似度的詞語(yǔ)相似度計(jì)算方法計(jì)算模糊匹配度使用一種改進(jìn)的有序模糊匹配的方法進(jìn)行語(yǔ)義的分析從而最終得到漢語(yǔ)句子全面的分析結(jié)果。本文的核心工作可以概括為以下幾個(gè)方面第一對(duì)于漢語(yǔ)句子分詞技術(shù)的研究。提出了一種融合神經(jīng)網(wǎng)絡(luò)和匹分詞技術(shù)。神經(jīng)網(wǎng)絡(luò)具有良好的容錯(cuò)性、自組織和自學(xué)習(xí)的能力本文使用反向傳播神經(jīng)網(wǎng)絡(luò)以及匹配融合的分詞方法既利用了神經(jīng)網(wǎng)絡(luò)的容錯(cuò)性特點(diǎn)又利用了傳統(tǒng)匹配方法的優(yōu)勢(shì)對(duì)二者的融合進(jìn)行了探索。第二對(duì)于漢語(yǔ)詞語(yǔ)的相似度計(jì)算的研究。提出了一種基于DEF樹形態(tài)相似度的詞語(yǔ)相似度計(jì)算方法并且結(jié)合基于馬科夫的相似度計(jì)算方法。本方法充分利用了樹的形態(tài)相似性能夠深層次挖掘詞語(yǔ)的語(yǔ)義相似性并通過對(duì)比實(shí)驗(yàn)和同義詞林的近義詞相似性計(jì)算實(shí)驗(yàn)表明了方法的有效性和優(yōu)勢(shì)。第三對(duì)于語(yǔ)義表示的形式化研究。利用知網(wǎng)和信息結(jié)構(gòu)庫(kù)構(gòu)建語(yǔ)義依存模式樹庫(kù)將簡(jiǎn)單的文本描述的語(yǔ)義知識(shí)形式化并且成為便于計(jì)算機(jī)處理的形式。同時(shí)還對(duì)于構(gòu)建的語(yǔ)義依存模式樹庫(kù)進(jìn)行補(bǔ)充和完善。第四對(duì)于語(yǔ)義分析方法的研究。在依存句法分析的基礎(chǔ)上使用一種改進(jìn)的有序模糊匹配方法在語(yǔ)義確定過程中使用到詞語(yǔ)相似度進(jìn)行模糊匹配度的計(jì)算。結(jié)果表明這是一種有效的語(yǔ)義分析方法。第五對(duì)于分析結(jié)果的整合的研究。將漢語(yǔ)句子分析結(jié)果向RELEX靠攏以期用于機(jī)器人系統(tǒng)中去。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 110
大?。?4.02(MB)
子文件數(shù):
-
簡(jiǎn)介:該文介紹的是一個(gè)基于DSP的硬件非特定人命令集語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)為了整個(gè)硬件系統(tǒng)的順利實(shí)現(xiàn)首先我們對(duì)整個(gè)語(yǔ)音識(shí)別系統(tǒng)的各項(xiàng)關(guān)鍵技術(shù)在PC上做了仿真實(shí)現(xiàn)、測(cè)試和優(yōu)化然后在TI公司成熟的DSP評(píng)測(cè)板卡上實(shí)現(xiàn)了整個(gè)系統(tǒng)最后根據(jù)實(shí)際應(yīng)用設(shè)計(jì)并實(shí)現(xiàn)了基于DSP的語(yǔ)音識(shí)別系統(tǒng)該文對(duì)算法研究和硬件實(shí)現(xiàn)中采用的技術(shù)做了詳細(xì)分析和討論1對(duì)經(jīng)典的小詞匯量語(yǔ)音識(shí)別系統(tǒng)的算法進(jìn)行了充分討論2針對(duì)經(jīng)典算法測(cè)試結(jié)果顯示出的不足論文對(duì)經(jīng)典的識(shí)別算法做了修改3在TI的TMS320VC5402DSK上實(shí)現(xiàn)了語(yǔ)音識(shí)別系統(tǒng)4根據(jù)實(shí)際的應(yīng)用需要設(shè)計(jì)與實(shí)現(xiàn)了一個(gè)基于DSP的語(yǔ)音識(shí)別系統(tǒng)完成了初步的性能測(cè)試
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 77
大?。?1.52(MB)
子文件數(shù):
-
簡(jiǎn)介:太原理工大學(xué)碩士學(xué)位論文基于SPHINX的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別姓名王韻申請(qǐng)學(xué)位級(jí)別碩士專業(yè)指導(dǎo)教師張雪英太原理工大學(xué)碩士研究生學(xué)位論文II據(jù)分析,驗(yàn)證了系統(tǒng)的有效性。本文主要進(jìn)行了兩個(gè)系統(tǒng)的設(shè)計(jì)首先以CASIA漢語(yǔ)數(shù)字串語(yǔ)音庫(kù)訓(xùn)練聲學(xué)模型和語(yǔ)言模型,構(gòu)建了漢語(yǔ)連續(xù)數(shù)字識(shí)別系統(tǒng),該系統(tǒng)句子識(shí)別率達(dá)到了90,詞識(shí)別率高達(dá)972;其次以CASIA9899語(yǔ)音測(cè)試庫(kù)訓(xùn)練聲學(xué)模型和語(yǔ)言模型,建立了一個(gè)中等詞匯量的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)性能較之前者識(shí)別性能欠佳,句識(shí)別率為70,詞識(shí)別率為967。全部數(shù)據(jù)顯示了系統(tǒng)的有效性。關(guān)鍵詞漢語(yǔ)連續(xù)語(yǔ)音識(shí)別,SPHINX,特征提取,聲學(xué)模型,語(yǔ)言模型,搜索算法
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 69
大小: 2.96(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著近幾年互聯(lián)網(wǎng)的飛速發(fā)展網(wǎng)絡(luò)中各種各樣的電子文本信息急劇膨脹。如何迅速、有效地從這些海量的、非結(jié)構(gòu)化的文本中獲取我們所需要的信息和知識(shí)已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。作為信息抽取的重要子任務(wù)命名實(shí)體識(shí)別在許多自然語(yǔ)言處理應(yīng)用領(lǐng)域起著十分重要的作用其主要目的是識(shí)別文本或句子中表示人名、地名、機(jī)構(gòu)名以及時(shí)間日期等信息的短語(yǔ)。本文引入實(shí)體語(yǔ)素概念在機(jī)器學(xué)習(xí)框架融合實(shí)體內(nèi)部結(jié)構(gòu)特征和外部上下文信息研究人名、地名和機(jī)構(gòu)名等命名實(shí)體識(shí)別方法重點(diǎn)解決地名和機(jī)構(gòu)名當(dāng)中存在的大量復(fù)雜的、含有嵌套結(jié)構(gòu)的命名實(shí)體識(shí)別問題。具體地本文從以下三個(gè)方面展開研究首先采用基于機(jī)器學(xué)習(xí)方法構(gòu)建漢語(yǔ)命名實(shí)體的雙層模型并通過實(shí)驗(yàn)對(duì)最大熵和條件隨機(jī)場(chǎng)組合成的四種雙層模型進(jìn)行了對(duì)比測(cè)試。結(jié)果表明基于條件隨機(jī)場(chǎng)的雙層模型對(duì)嵌套命名實(shí)體的識(shí)別效果最好。在此基礎(chǔ)上對(duì)雙層模型的錯(cuò)誤識(shí)別結(jié)果進(jìn)行了分析進(jìn)而提出一種基于互信息的后處理方法對(duì)復(fù)雜的命名實(shí)體進(jìn)行糾錯(cuò)處理很大程度上解決了嵌套命名實(shí)體邊界識(shí)別錯(cuò)誤問題。其次將非嵌套的簡(jiǎn)單實(shí)體和嵌套的復(fù)雜實(shí)體分開分別處理同時(shí)以字和詞相結(jié)合的方式深入剖析多層嵌套命名實(shí)體的結(jié)構(gòu)特點(diǎn)并以此為基礎(chǔ)改進(jìn)基于條件隨機(jī)場(chǎng)的雙層模型結(jié)構(gòu)以進(jìn)一步提高嵌套命名實(shí)體識(shí)別效果。最后通過語(yǔ)料庫(kù)考察了漢語(yǔ)嵌套命名實(shí)體與實(shí)體語(yǔ)素之間的關(guān)系并以命名實(shí)體語(yǔ)素為基礎(chǔ)通過LOGISTIC回歸模型中LOGISTIC變換方法篩選出的嵌套命名實(shí)體內(nèi)部的多級(jí)前后綴語(yǔ)素特征進(jìn)而在條件隨機(jī)場(chǎng)模型上融合內(nèi)部結(jié)構(gòu)特征和外部上下文信息實(shí)現(xiàn)了一個(gè)基于實(shí)體語(yǔ)素的漢語(yǔ)嵌套命名實(shí)體識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明命名實(shí)體語(yǔ)素的引入有利于提高嵌套命名實(shí)體識(shí)別的性能。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 78
大?。?2.51(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 65
大?。?2.07(MB)
子文件數(shù):