-
簡介:隨著網(wǎng)絡信息技術(shù)的不斷發(fā)展,文本作為信息的重要載體也隨之大量涌現(xiàn),因而文本的自動處理就成為了信息處理的一個重要領域。詞語和文本的相關度計算作為文本信息處理的重要研究方向,越來越多的被國內(nèi)外研究者所關注,同時它也是信息檢索、文本分類、詞義消歧、機器翻譯等多種自然語言處理技術(shù)的重要基礎。為了促進自然語言處理技術(shù)的發(fā)展,研究詞語和文本相關度計算具有重要的理論意義和現(xiàn)實意義。本文提出了基于中文維基百科分類體系和文檔鏈接的詞語相關度計算方法。傳統(tǒng)的大部分漢語詞語相關度計算方法是基于知網(wǎng)(HOW)的。本文將中文維基百科作為語義資源,利用其分類層次、概念文檔之間的鏈接來計算漢語詞語之間的相關度。在借鑒向量空間模型和谷歌相似度(GOOGLESIMILARITYDISTANCE)計算方法基礎上,通過構(gòu)建分類圖和相關語義向量來實現(xiàn)漢語詞語相關度的計算。詞語的語義相關度可以利用到文本之間的相關度計算中,尤其對于短文本,短文本作為文本的一種,它具有獨特的語言特征,單條短文本長度一般都非常短,因此樣本特征非常稀疏,很難準確抽取有效的語言特征,難以充分挖掘與利用特征之間的關聯(lián)性。本文綜合考慮短文本的結(jié)構(gòu)特點,并且根據(jù)詞語語義相關度值,提出了最大序列算法和動態(tài)權(quán)值算法。本文抽取了中文維基百科的文檔鏈接、分類體系、重定向鏈接等語義資源,實驗測試分別使用測試集WDSIMILARITY353和新聞標題等短文本語料對本文提出的基于中文維基百科的詞語相關度算法和短文本相關度算法進行了實驗,并對測試結(jié)果進行了分析。實驗結(jié)果表明,本文的算法具有一定的可行性和有效性。最后對論文所做的工作進行了總結(jié)與評述,并提煉了詞語和短文本相關度計算中值得繼續(xù)研究的若干問題,為以后的研究指明了方向。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 84
大?。?2.52(MB)
子文件數(shù):
-
簡介:本文設計并實現(xiàn)了領域漢語理解中的智能分詞系統(tǒng)及其未登錄詞的識別模型,并將其應用于產(chǎn)品的設計過程,依托整個領域漢語理解系統(tǒng)實現(xiàn)了以自然語言形式描述的用戶設計要求到計算機能夠識別的概念設計要求或設計參數(shù)的轉(zhuǎn)化。首先,分析了現(xiàn)有的分詞系統(tǒng)設計的優(yōu)點及其存在的不足,提出了基于系統(tǒng)論的機械分詞和基于語義理解的分詞相結(jié)合的智能分詞模型,并將此智能分詞模塊嵌入到整個領域漢語理解系統(tǒng)中。在機械分詞階段智能分詞系統(tǒng)提供了所有可能的分詞結(jié)果,并進行詞法分析級別的歧義排除,在后續(xù)的漢語理解系統(tǒng)的語義分析模塊中排除存在語義歧義的分詞結(jié)果,最后利用體現(xiàn)其智能性的反饋模塊將理解結(jié)果反饋回分詞詞庫,實現(xiàn)分詞系統(tǒng)和整個自然語言理解系統(tǒng)的自我完善和良性互動。其次,在未登錄詞識別模塊本文主要介紹了中文人名和機構(gòu)名的識別方法,提出了規(guī)則和統(tǒng)計相結(jié)合識別中文人名的方法,以及基于模板匹配識別機構(gòu)名的方法。最后,結(jié)合實際將領域漢語理解中智能分詞系統(tǒng)和未登錄詞識別模塊應用于產(chǎn)品設計的用戶需求分析領域,通過系統(tǒng)測試,結(jié)果比較令人滿意。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 66
大?。?2.88(MB)
子文件數(shù):
-
簡介:電子科技大學碩士學位論文漢語語句組塊及消歧的研究與實現(xiàn)姓名周美希申請學位級別碩士專業(yè)計算機應用技術(shù)指導教師左志宏20041214ABSTRACTNATURALLANGUAGEPROCESSINGISACROSS,F(xiàn)IELDSUBJECTTHATCOMBINEDWITHMULTIPLEDISCIPLINES,SUCHASLINGUISTICS,LOGIC,PHYSIOLOGYPSYCHOLOGYCOMPUTERSCIENCEANDMATHEMATICSETC,THEAIMOFNATURALLANGUAGEUNDERSTANDINGISTOLETTHECOMPUTERUNDERSTANDANDRESPONDHUMAN’SLANGUAGECORRECTLYASEXPECTED,ANDTOBUILDAFRIENDLYRELATIONSHIPBETWEENHUMANANDMACHINESOASTOREALIZEADVANCEDINFORMATIONTRANSFERANDRECOGNITIONACTIVITYWITHTHEPOPULARITYOFCOMPUTERANDINTEMET,ANDTHEONGOINGEVOLUTIONPROCESSFROMTRADITIONALDATAANDINFORMATIONPROCESSINGTOKNOWLEDGEPROCESSING,MOREPROFOUNDANDCOMPREHENSIVELANGUAGEPROCESSINGTECHNIQUESAREINCREASINGLYREQUIREDTOPROMOTETHESHAREOFINFORMATIONANDKNOWLEDGE,ANDNATURALLANGUAGEPROCESSINGHASBECOMETHEBOTTLENECKOFTHEDEVELOPMENTOFSOCIETYANDECONOMYUPTONOWRELEVANTRESEARCHESHAVEONLYMADECOMPUTERSUNDERSTANDTHEINFORMATIONOFLANGUAGECORRECTLYANDTHEINTELLIGENCEOFCOMPUTERISSTILLFARFROMTHELEVELOFUNDERSTANDINGNATURALLANGUAGEASWELLASMENUNLIKEWESTERNNATURALLANGUAGEPROCESSING,WHICHWASDEVELOPEDONANINDOEUROPEANFAMILYLANGUAGESBASISSAMEASTHECOMPUTERWAS,CHINESENATURALLANGUAGEPROCESSINGISPARTICULARLYDIFFICULTFORITSINHERENTLANGUAGEGAP,ANDTHEFEATUREOFFORMANDMEANINGCOMBINATIONANDLACKINGOFMETAMORPHISMBRINGMORECOMPLICATIONANDOBFUSCATIONTOCHINESENATURALLANGUAGEPROCESSINGINORDERTOUNDERSTANDACHINESESENTENCE,THECOMPUTERMUSTCONDUCTSYNTAXANALYZING,SEMANTICANALYZINGANDPRAGMATICANALYZINGRESPECTIVELYSOTHATAFORMULIZEDREPRESENTATIONOFTHESENTENCECALLBEPRODUCEDTHEPROCESSOFANALYZINGANDUNDERSTANDINGINCOMPUTERISAHIERARCHICALPROCESSTHATCANBEDIVIDEDINTOMORPHOLOGICSTEP,SYNTACTICSTEPANDSEMANTICSTEPTHEPRESENTMETHODOFSYNTAXANALYSISISBASEDONSTATISTICS,RULESORTHECOMBINATIONOFTHEMTHERESEARCHESONSEMANTICANALYSISBASEDONSYNTAX,ANDITFOCUSESONDEVELOPINGSEMANTICINFORMATIONDICTIONARYIDENTIFYINGTHECOMPONENTINTHESENTENCES,ANDSEARCHINGSTRUCTURERELATIONSANDMEANINGSAMONGCOMPONENTSTHESEMETHODSAREWIDELYUSED,BUTTHEYOFTENCAUSEAMBIGUITYANDMISUNDERSTANDINGOFTHESENTENCEBYDIVIDINGSENTENCESTRUCTUREANDSEMANTICSTHISPAPERPROPOSEDANEWMETHODTOANALYZESENTENCESANDDISAMBIGUATETHEHIERARCHICALSTRUCTUREANDSEMANTICRELATIONTHISMETHODBROKETHROUGHTHELIMITATIONOFANALYZINGSENTENCESONLYBYSYNTAXITUSESTHETHEORYOFTHREELINGUISTICASPECTS
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 70
大?。?1.71(MB)
子文件數(shù):
-
簡介:在社會信息化程度日益提高的今天,專利已成為最大的科技信息載體,其在科研開發(fā)和技術(shù)創(chuàng)新上發(fā)揮著重要作用。怎樣有效利用其所包含著的爆炸式增長的各類專業(yè)信息資源,使專利在科研和專利業(yè)務的諸多方面發(fā)揮重要作用,是當前漢語專利信息處理系統(tǒng)的重要挑戰(zhàn),而分詞技術(shù)是其重要的基礎工作,專利檢索、專利翻譯的工作都離不開漢語專利文獻的分詞技術(shù),分詞質(zhì)量的高低直接影響專利文獻應用的效率。漢語分詞和詞性標注工作已經(jīng)取得了非常豐碩的成果,但是,目前針對漢語專利文獻分詞研究的參考文獻數(shù)量不多,還沒有專門的面向?qū)@墨I的開源的分詞系統(tǒng)。本文根據(jù)專利文獻自身的特點,提出了一種領域詞典與統(tǒng)計相結(jié)合的分詞方法,與現(xiàn)有的ICTCLAS分詞系統(tǒng)相比在專利領域內(nèi)切分取得了很高的準確率與召回率,通過提取專業(yè)術(shù)語大大提高了未登錄詞的識別效率。針對專利文獻存在大量的未登錄專業(yè)術(shù)語導致的分詞精度下降,本文提出應用NCVALUE算法抽取專業(yè)術(shù)語,使用條件隨機場模型CRF,構(gòu)建專利領域術(shù)語抽取模板,抽取出有意義的低頻率術(shù)語,提高專業(yè)術(shù)語識別率。與當前主流術(shù)語抽取算法在專利語料上的比較結(jié)果顯示,該方法很好地解決了未登錄詞的識別問題,使分詞的性能提升了大約10個百分點以上。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 50
大小: 2.5(MB)
子文件數(shù):
-
簡介:該文對漢語語音識別的統(tǒng)計建模方法和噪聲環(huán)境下帶噪語音的特性及其識別方法進行了較深入和系統(tǒng)的研究其主要內(nèi)容包括以下幾個部分1提出了一種新兩步端點檢測方法2針對基本HMM最大似然訓練方法中不合理的模型正確性假設前提提出了一種結(jié)合MLP的鑒別訓練方法3以高斯白噪聲作為實際噪聲的理想化模型對其予以識別性能和純凈語音LPC倒譜特征的影響進行了深入的研究4提出了一種新的基于多采樣率濾波的帶噪語音增強方法通過將聚類思想引入閾值設置實現(xiàn)了帶噪語音各頻帶分解信號去噪閾值的自適應求取5討論了一種能夠有效抑制噪聲的參數(shù)估計方法矩陣懲罰方法并首次將之引入語音識別提出了一種基于矩陣懲罰的帶噪語音增強方法
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 75
大?。?2.14(MB)
子文件數(shù):
-
簡介:本文的研究工作是面向自然語言處理并基于現(xiàn)代漢語框架網(wǎng)絡工程研究的一部分。本文承擔的研究工作主要集中在三個方面首先,以FILLME的框架語義學為基礎、基于語料庫的現(xiàn)代漢語框架網(wǎng)絡工程的構(gòu)建及其自動句法語義角色標注技術(shù)研究;其次,基于漢語框架網(wǎng)絡知識庫構(gòu)建中文閱讀理解語料庫;最后,中文閱讀理解問題回答任務研究等。全文共分五章。首先,明確自然語言語義分析的意義,確定本文的研究工作主要就是構(gòu)建現(xiàn)代漢語框架網(wǎng)絡語義知識庫,并嘗試在語義分析的基礎上,在問題回答的背景下進行中文閱讀理解問題回答的研究。其次,漢語框架網(wǎng)絡工程為我們進行基于漢語框架網(wǎng)絡知識庫的句法語義角色自動標注軟件的設計與開發(fā)目的是開發(fā)高性能的漢語句法語義分析器,以及為大規(guī)模真實文本的語義信息標注提供有力支持,該工程由劉開瑛教授主持,開始于2004年。作者在漢語框架網(wǎng)絡工程的構(gòu)建中主要研究CFN的自動句法語義角色標注任務,提出了將層疊條件隨機場模型應用于漢語框架網(wǎng)絡知識庫的句法語義角色自動標注任務;針對單個框架下的句子庫中的所有句子進行句法語義角色自動標注探索,具體內(nèi)容包括語義角色標注、短語類型標注、句法功能標注的多個主要步驟的條件隨機場建模,并將低層條件隨機場模型中自動標注的最好結(jié)果作為高層件隨機場模型自動標注的輸入;提出適合各層角色標注的特征模板,并通過實驗進行驗證,確定方法的有效性。第三,將框架語義學思想引入中文閱讀理解分析研究,并構(gòu)建基于漢語框架語義角色標注的中文閱讀理解語料庫。閱讀理解問答系統(tǒng)是研究自然語言處理技術(shù)的一個有效方向,它為自然語言處理技術(shù)提供了一個很好的評測方法,具有很高的研究價值。然而,缺乏中文閱讀理解語料庫已經(jīng)成為制約漢語閱讀理解問答系統(tǒng)發(fā)展的主要障礙。開展中文閱讀理解問答系統(tǒng)研究的前提是具備一個選材合理、問題設置適當?shù)闹形拈喿x理解語料庫。本文作者作為中文閱讀理解語料庫主要構(gòu)建人員之一,研究并制定了中文閱讀理解語料庫的研制技術(shù)。在構(gòu)建中文閱讀理解語料庫過程中,采集了多種主題的閱讀理解問答系統(tǒng)原始數(shù)據(jù),設計了問題句,標記了答案句,并開發(fā)了輔助工具,進行了分詞、詞性標注、命名實體識別、語料庫的目標詞索引等加工處理,尤其是基于漢語框架網(wǎng)絡知識庫對語料進行了句法功能、短語類型和框架元素三個層面的深加工。第四,基于中文閱讀理解語料庫,根據(jù)問句和候選答案句的對應關系,構(gòu)建詞層面特征、句法層面特征,采用統(tǒng)計機器學習方法最大熵模型進行閱讀理解問題回答建模,并設計實現(xiàn)中文閱讀理解問題回答系統(tǒng),并給出了實驗結(jié)果與性能分析。從而對語料庫的規(guī)模、合理性、評價標準等開展進一步的探索,度量語料的測試結(jié)果。實驗結(jié)果表明,采用最大熵模型,在詞層面特征的基礎上有效的融合句法層面的基本塊特征、結(jié)構(gòu)關系特征以及功能塊特征,系統(tǒng)的性能達到了預期的效果。較好的系統(tǒng)性能表明,該研究方法不僅對該課題,而且對相關課題的研究也具有一定的指導意義。最后,對全文的研究工作進行總結(jié),包括具體的研究成果以及研究工作中產(chǎn)生的一些對于現(xiàn)代漢語框架網(wǎng)絡工程的應用研究的思考,最后對進一步的研究工作進行了比較具體的規(guī)劃。本論文的主要創(chuàng)新工作有三點,第一,在現(xiàn)代漢語框架網(wǎng)絡工程構(gòu)建研究中,提出了一種基于層疊條件隨機場模型的句法語義角色自動標注方法,并通過實驗驗證了其有效性。第二,基于框架語義學思想構(gòu)建了中文閱讀理解語料庫,并提出了針對語料庫加工的中文框架語義標注技術(shù)。第三,在CRCC的基礎上,提出了基于最大熵模型進行中文閱讀理解問題回答的建模技術(shù),并開發(fā)實驗系統(tǒng)。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 128
大?。?3.52(MB)
子文件數(shù):
-
簡介:耳語音作為一種特殊的語音交流方式,近些年來逐漸受到從事語音研究和醫(yī)學研究的專家學者們的重視。耳語音轉(zhuǎn)換為正常音,可應用在公共場合下手機的通訊、嗓音病人正常語音交流的輔助及公安司法的某些工作的特殊需要等方面。因此耳語音轉(zhuǎn)換為正常音的研究具有重要的理論價值和應用價值本文主要研究耳語音轉(zhuǎn)換為正常音的實現(xiàn),設計了一個基于混合激勵線性預測MELP模型的耳語音轉(zhuǎn)換系統(tǒng)。根據(jù)MELP聲碼器的原理,對正常語音進行所需各個參數(shù)的提取并合成出語音,初步建立了一個MELP合成系統(tǒng)。然后,根據(jù)MELP合成系統(tǒng)的結(jié)構(gòu)及漢語耳語音與正常音的不同特點,對耳語音的參數(shù)進行分析,通過與正常音參數(shù)的比較、修正得到耳語音轉(zhuǎn)換所需的參數(shù)。本文提出了基于次序統(tǒng)計濾波進行端點檢測的方法,提取了耳語音的說話人性別信息,并根據(jù)實驗統(tǒng)計得到耳語音和正常語音增益的轉(zhuǎn)換模型。簡要介紹了漢語耳語音的聲韻分割、聲調(diào)識別、共振峰匹配以及根據(jù)性別信息和聲調(diào)信息進行基頻估計等問題。最后將匹配好的各項參數(shù),輸入到合成系統(tǒng)中,完成耳語音向正常音的轉(zhuǎn)換,并對合成語音進行主觀測試,結(jié)果表明了本文所提方法具有可行性。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 59
大小: 2.03(MB)
子文件數(shù):
-
簡介:隨著信息技術(shù)的飛速發(fā)展和計算機技術(shù)的不斷進步,人機交互方式發(fā)生了革命性的變化,人們在不斷尋求靈活、方便、快捷的信息交換方式時,語音合成技術(shù)應運而生。語音合成SPEECHSYNTHESIS又稱文語轉(zhuǎn)換TTS,TEXTTOSPEECH,是將計算機中存儲的文本轉(zhuǎn)換成對應的語音,是計算機和人類交互的一種手段。目前,漢語語音合成技術(shù)在合成單音節(jié)上已經(jīng)相對成熟,但是合成連續(xù)語音流時總是不夠清晰和自然,因此漢語語音合成需要在提高語音合成的自然度和可懂度方面進一步提高。本文分析各種語音合成算法的優(yōu)缺點后,將TDPSOLA算法和正弦模型分析算法相結(jié)合用于漢語語音合成,通過平滑處理后,合成連續(xù)的語音流。用小容量的聲母加韻母過渡以及四個聲調(diào)的韻母制作成語音庫,使得該語音合成系統(tǒng)的語音庫很小,易于移植到其他應用平臺,以便擴大其應用范圍。TDPSOLA算法具有方便靈活的韻律調(diào)整能力,但是當基音頻率修改范圍過大時,會出現(xiàn)失真和回聲效應;而正弦模型分析算法能夠?qū)φZ音信號進行寬范圍的基頻調(diào)整,保證了相鄰兩幀語音之間幅度和相位的連續(xù)性。結(jié)合這兩種算法的優(yōu)點,使得語音合成具有靈活調(diào)整韻律的能力,為以后研究帶情感的語音合成提供了基礎。針對目前一直存在的字與字之間的拼接問題,研究了相鄰音節(jié)的拼接規(guī)律,實現(xiàn)了字與字之間拼接的平滑過渡,在提高合成連續(xù)語流的自然度方面得到很大的提高,使機器的發(fā)聲更加接近人的發(fā)聲。針對很多語音合成系統(tǒng)中沒有實現(xiàn)多音字處理的功能,本系統(tǒng)增加了多音字詞庫,實現(xiàn)了簡單的多音字處理功能。雖然在提高語音合成的自然度方面得到了很大的提高,但是仍然有許多問題存在,本文在最后針對這些問題作了總結(jié),以便后來的研究者對本系統(tǒng)的不足之處進一步地完善。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 81
大小: 4.97(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 75
大?。?2.87(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 61
大小: 1.48(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 57
大?。?2.64(MB)
子文件數(shù):
-
簡介:本文的幾個研究方面包括語音庫的建設、文本標準化、拼音標注、停頓指數(shù)標注、重音判別。都是圍繞著將文本向語音的中間過渡階段的轉(zhuǎn)化這個主題以及為轉(zhuǎn)化提供相應的資源進行的。首先是語音庫的建設,從文本的選擇、錄音的控制、人工加工等方面進行了詳細的科學的設計與實現(xiàn),為本文中各個研究課題提供了賴以訓練測試的數(shù)據(jù)資源;然后文本標準化規(guī)范了輸入的文本,對于能發(fā)音的特殊符號將其轉(zhuǎn)化為漢字;接下來拼音標注則是告訴了系統(tǒng)該發(fā)什么音;最后停頓指數(shù)和重音的標注是提高合成語音的可懂度、自然度和表現(xiàn)力的關鍵,兩個符號韻律參數(shù)是否會影響到情感的表達針對情感韻律標注是否需要建立專門的模型本文對這些問題也進行了專門的研究和討論。尚未認識清楚的課題,如重音,我們不只是研究應用到TTS系統(tǒng)平臺中的自動判別,更是利用現(xiàn)有的語料庫對于重音的分類、重音的聲學表現(xiàn)、重音和其他語言學現(xiàn)象,如上聲的聯(lián)系等進行研究,試圖為學術(shù)界早日發(fā)現(xiàn)重音現(xiàn)象的奧妙做出應有的貢獻,此外針對重音標注語料庫構(gòu)建的困難的問題,嘗試為自動實現(xiàn)語料庫的擴充進行了一些研究。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 67
大?。?2.16(MB)
子文件數(shù):
-
簡介:由于語言音位系統(tǒng)的語音范疇的聲學空間與感知空間的不一致以漢語為對象探索語言音位系統(tǒng)的語音范疇的聲學空間距離與感知空間距離的關系顯得十分重要。研究發(fā)現(xiàn)人耳對漢語聲母的感知能力明顯弱于對韻母的感知能力以往針對漢語聲母的研究主要通過主觀測試獲得不同聲母的聽感混淆進而基于語音學分析采用數(shù)學方法計算得到。本文探索了聲學參數(shù)與言語感知的相關性定義了漢語聲母的聲學距離與感知距離給出了二者的數(shù)學描述建立了二者的單調(diào)相關關系提出了使用斯皮爾曼等級相關系數(shù)作為量化評價二者相關關系強弱的標準在探討了漢語聲母的聲學特征與其感知特性的基礎上本文將感知線性預測系數(shù)與時域特征參數(shù)相結(jié)合提出了一個客觀描述漢語聲母聲學距離的數(shù)學公式該公式描述的聲學距離與感知距離間呈現(xiàn)出了較強的單調(diào)相關性。首先本文通過比較現(xiàn)有的語音信號的不同聲學特征描述分別使用不同聲母樣本的梅爾頻率倒譜系數(shù)和感知預測系數(shù)和已有的類間、類內(nèi)距離度量方式進行聲母的層次聚類分析找出了能夠在聲學空間內(nèi)較好度量聲母聲學距離的特征參數(shù)組合以及類間和類內(nèi)距離度量方式進而定義出聲學空間內(nèi)不同聲母間的聲學距離。然后本文定義了感知空間內(nèi)不同聲母間的感知距離通過言語測聽實驗得到的混淆矩陣計算出了不同聲母間感知距離的具體數(shù)值提出使用斯皮爾曼等級相關系數(shù)作為量化評價兩種距離單調(diào)相關性強弱的標準并設計實驗驗證了用所選的特征參數(shù)和距離度量方式描述聲學距離的合理性。最后本文采用同樣的方法找出了時域內(nèi)使兩種距離單調(diào)相關性最強的特征參數(shù)并以所選的時域和頻域特征共同描述聲學距離提出了一種新的描述聲學距離的數(shù)學公式實驗結(jié)果驗證了該公式的合理性與穩(wěn)定性。本研究為音節(jié)級協(xié)同發(fā)音時的聲學空間描述與感知研究提供了基礎同時在本基礎上有望發(fā)現(xiàn)新的聲學特征描述。此外本研究也為漢語言語測聽時詞表的等價性評估提供了理論和技術(shù)支持。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 62
大?。?3.35(MB)
子文件數(shù):
-
簡介:該文設計并實現(xiàn)了一個漢語自動分詞系統(tǒng)對系統(tǒng)中采用的關鍵技術(shù)進行具體介紹詞典查找是影響系統(tǒng)切分速度的重要因素該文提出一種基于TRIE索引的詞典組織機制對分詞過程中幾種常用的詞典查找尤其是最大匹配查找的速度有很大提高歧義字段切分是影響系統(tǒng)切分精度的一個重要因素該文針對交集型歧義字段設計了統(tǒng)計與規(guī)則相結(jié)合的切分算法對多義型歧義字段采用枚舉性規(guī)則的切分算法未登錄詞識別是漢語自動分詞中最為困難也是最具挑戰(zhàn)性的問題該文對數(shù)字詞短語、中國姓名、中國地名、音譯名和機構(gòu)名等主要類型的未登錄詞都給出了具體的識別算法并提出基于并發(fā)和競爭處理機制的專有名詞識別集成策略最后提出了一種動態(tài)詞典機制利用未登錄詞在輸入文本中的全局信息力圖使系統(tǒng)的未登錄詞識別性能達到最佳
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 62
大?。?1.83(MB)
子文件數(shù):
-
簡介:漢語分詞是自然語言理解中的一個主要組成部分,同時也是文本挖掘,機器翻譯,信息檢索的基礎。由于漢語分詞問題本身的復雜性,故而尋求準確有效的漢語分詞方法成為自然語言理解的主要研究內(nèi)容之一。本文設計了基于統(tǒng)計和語義分析相結(jié)合的分詞模型,將其應用在產(chǎn)品的設計過程中。通過該模型將用戶以自然語言形式描述的需求進行切分,將切分結(jié)果經(jīng)過自然語言理解系統(tǒng)的其余模塊的處理轉(zhuǎn)化成為計算機能夠識別的概念設計要求。本文分析了現(xiàn)有漢語分詞的方法及其主要存在的問題,研究了基于語料庫的分詞方法及其關鍵技術(shù),結(jié)合現(xiàn)有的分詞方法,提出將機械分詞、語料庫統(tǒng)計分詞和語義分析相結(jié)合的分詞模型,并將此分詞模型嵌入到某領域漢語理解系統(tǒng)之中。機械分詞階段,利用改進的最大匹配法,以求盡量得出所有的切分形式并用有向圖的形式表現(xiàn)出來,并且找出分詞中的歧義字段,對其進行消除歧義。語料庫統(tǒng)計階段,先將歧義字段中的各種常見搭配組合利用語料庫統(tǒng)計方法統(tǒng)計,統(tǒng)計其共現(xiàn)度和搭配情況,并把搭配情況反饋到統(tǒng)計詞典中,實現(xiàn)分詞系統(tǒng)和整個自然語言理解系統(tǒng)的自我完善和良性互動,同時對合成詞“22”,“23”和“32”模式的可信度進行統(tǒng)計;然后采用語義分析中的動名詞結(jié)構(gòu),結(jié)合概念從屬的知識表示方法,對分詞結(jié)果進一步消除歧義,提高了分詞系統(tǒng)的準確率,降低分詞系統(tǒng)的復雜度。最后結(jié)合實際將該分詞模型應用于產(chǎn)品設計的用戶需求分析領域。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 70
大小: 2.66(MB)
子文件數(shù):