-
簡介:詞類劃分與詞性標注都是自然語言處理中重要的基礎(chǔ)性研究課題也是后續(xù)研究如淺層句法分析、文本分類、機器翻譯等的基礎(chǔ)。該課題的研究方法主要有三種基于規(guī)則的方法、基于統(tǒng)計的方法以及兩者相結(jié)合的方法。其中基于統(tǒng)計的方法又分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)等三種學(xué)習(xí)方式。本文主要從基于統(tǒng)計的角度去探索詞類劃分和詞性標注的主要內(nèi)容如下1、兼類詞詞性消歧是中文詞性標注的難點之一。本文集成了支持向量機條件隨機場最大熵等三種分類模型對兼類詞詞性進行投票消歧把得票多的詞性作為該詞的詞性。以1998年1月份已標注人民日報為實驗語料對120個常見的兼類詞進行開放測試平均精度達到8969%取得了較好的效果。2、詞類劃分是指詞語在語法意義上的分類即詞與詞相組合的過程中所體現(xiàn)出來的類別。本文以句法功能信息庫為藍本以該庫中所列的14個屬性為特征空間以其中的句法功能統(tǒng)計數(shù)據(jù)作為特征值并對這些空間特征進行歸一化處理利用AP算法對它收錄的3514個詞進行聚類共聚出62類基本上把語法相同的或相似的詞歸為了一類。3、對詞性進行聚類也是研究兼類詞消歧的手段之一。本文從1998年1月份人民日報中抽取了12個兼類詞這些兼類詞在分類時效果不好而且基準精度較低區(qū)別度不大。本文利用AP聚類、KMEANS聚類、譜聚類等常見聚類算法;分別采用了歐氏距離、DICE系數(shù)、夾角余弦作為相似度的衡量方法;采用上下文詞頻作為特征并對這些特征進行了提升、歸一化等處理然后進行聚類實驗取得了較好的實驗結(jié)果。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 69
大?。?2.49(MB)
子文件數(shù):
-
簡介:隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,問答系統(tǒng)成為自然語言處理中最有活力的研究方向之一。常問問題庫FAQ的問答系統(tǒng)把用戶經(jīng)常提問的問題和相關(guān)的答案組織在一起,給用戶提供了一種更方便、快捷的解決途徑,它的應(yīng)用也越來越廣泛。在問答系統(tǒng)中,句子相似度計算是其中關(guān)鍵的技術(shù)。本文針對傳統(tǒng)句子相似度計算方法利用句子的某一方面信息進行相似度計算時考慮不全面的問題,提出了綜合多特征的句子相似度計算方法。實驗驗證了本文的方法在計算句子相似度時準確率要高于傳統(tǒng)的三種句子相似度計算方法。最后本文將綜合多特征的句子相似度計算方法應(yīng)用于計算機領(lǐng)域問答系統(tǒng)常問問題庫FAQ的問句匹配中,進一步驗證了該方法的有效性。論文的主要工作如下1利用兩個句子中詞語共現(xiàn)的頻率,計算句子的詞形相似度。2采用了基于詞典的詞語相似度計算方法,利用哈爾濱工業(yè)大學(xué)同義詞詞林擴展提供的豐富語義信息,計算句子詞語語義相似度。3運用樹核TREEKERNEL計算句子的句法結(jié)構(gòu)相似度。樹狀結(jié)構(gòu)是漢語句子結(jié)構(gòu)最直觀的一種表現(xiàn)形式,而樹核能很好地計算出兩個樹狀結(jié)構(gòu)的相似度。為此,用句法分析器將兩個句子分析成樹狀結(jié)構(gòu),使用樹核對這種樹狀結(jié)構(gòu)的相似性進行度量,從而得到兩個句子的句法結(jié)構(gòu)相似度。4將兩個句子的詞形、詞語語義、句法結(jié)構(gòu)三個方面的相似度進行加權(quán)綜合,得到兩個句子的相似度。5實驗驗證了本文的方法比傳統(tǒng)的句子相似度計算方法在計算句子相似度時具有更高的準確率。6把該方法應(yīng)用于計算機領(lǐng)域自動問答系統(tǒng)中,進一步驗證了方法的有效性。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 56
大?。?1.76(MB)
子文件數(shù):
-
簡介:自然語言處理已歷時幾十年了,熱潮莫過于機器翻譯。機器翻譯的熱潮過去后,語言處理逐漸進入平靜、現(xiàn)實的務(wù)實階段。近期人們將目標定在文本的自動分摘要、信息的自動檢索和過濾以及限定領(lǐng)域的人機對話系統(tǒng)等方面。本文介紹口語人機對話系統(tǒng)語言分析的研究。語言處理中,實用性很強、高效的是統(tǒng)計方法。但基于規(guī)則的方法可以細致刻言內(nèi)在結(jié)構(gòu)的各個方面,如果能綜合運用情景、上下文和常識獲取語義特征,定領(lǐng)域的情況下,分析的準確率將會顯著提高。本文根據(jù)漢語口語缺省多、插入語多、短句多和語序靈活等語言特點,設(shè)計了以規(guī)則為主、結(jié)合概率信息的語言綜合分析方法。在漢語分詞和詞性標注的基基于合一文法利用圖算法進行部分句法分析,最后結(jié)合上下文、情景、常識率信息獲取語義特征。該方法有效提高了漢語口語對話系統(tǒng)語言分析的準確同時考慮了效率和領(lǐng)域切換等實用方面的問題。并實現(xiàn)了上海市交通信息查詢SHJTQ,同時完成了相關(guān)的測試評價工作,從而確保了系統(tǒng)的正確性、有。詞切分和詞性標注方面,本文通過建立索引和采用合適的HASH算法,改進了詞組織形式,極大提高了分詞和詞性標注的效率。從而減少系統(tǒng)實時響應(yīng)時間。句法分析方面,本文根據(jù)漢語口語特點進行了如下改進和嘗試1、采用部分分析而不是常規(guī)的完全句法分析,從而有效分析含有插入語、缺省、語序變化、多個短句等不規(guī)正語句;2、采用基于合一文法的語法體系,通過特征校驗限制句法規(guī)則歸約,減少句法分析的歧義;通過特征傳遞獲取短語的語義語法信息,以便進一步獲取整句的語義特征;3、實現(xiàn)了特征和句法規(guī)則的預(yù)編譯,使得句法知識庫具有良好的開放性,減少了領(lǐng)域切換時所需工作量。語義分析的難點在于如何處理缺省、指代、否定等復(fù)雜語言現(xiàn)象。本文從所限定的領(lǐng)域特點出發(fā),嘗試給出一些實用的處理方法1、采用合一算法根據(jù)上下文、情景求解缺省;2、采用史列表方法結(jié)合語法語義限制規(guī)則求解指代;3、將否定分為句間否定和句中否定,根據(jù)“否定候選集對比刪除”流程確定否定詞的具體轄域。這些方法充分利用了上下文、情景和常識,在本系統(tǒng)中處理正確率達到了80%以上。最后對本文所提出的語言分析方法進行了測試。測試結(jié)果表明該方法不但可以有效處理規(guī)正的查詢語句,而且可以處理含有插入語、多個短句等非規(guī)正語句;處理效率基本實用。在此基礎(chǔ)上,提出了進一步的工作方向。上述方法及系統(tǒng)已被采納于上海市科委重點項目中。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 71
大小: 2.09(MB)
子文件數(shù):
-
簡介:山東大學(xué)碩士學(xué)位論文摘要I面漢語的詞切分是漢語理解的基礎(chǔ),因而長期以來一直是漢語信。,處‘理領(lǐng)域的一個重要課題。從目前的分詞方法來看,它們的切分精度依然滿足不了應(yīng)用的要求。根據(jù)研究,切分精度的提高依賴于對切分歧義的消解程度,而消解歧義的理想方式是采用句法語義知識的評測標準。這是一個高復(fù)雜度的操作,傳統(tǒng)的串行的分詞方法在實現(xiàn)上存在效率和復(fù)雜性方面的困難。本課題力圖提出一種并行的分詞方法,目的是利用并行的特點,使分詞和句法語義分析能夠充分地交互,從而更有效、合理地實現(xiàn)分詞和語法一語義分析,進一步提“”詞方法的“分精度和“分效率。丫本文在目前的書面漢語的分詞和分析方法基礎(chǔ)上,對基于全切分的分詞方法作了進一步的研究。首先系統(tǒng)地討論了全切分,提出了全切分的抽象算法模型,并特別指出了全切分普遍存在的重復(fù)切分問題。進而,對串行全切分和并行全切分的分詞算法和剪枝方法進行了研究,給出了串行全切分分詞方法的算法模型。最后,提出了一種并行分詞方法。該方法在輸入的同時進行切分,并在切分的同時進行歧義識別的句法一語義分析,從而實現(xiàn)了輸入與切分、切分與歧義分析的并行運算,它們互為條件、共同發(fā)展,在輸入結(jié)束時即刻得到分詞結(jié)果。本文提出了該分詞方法的體系結(jié)構(gòu)模型,設(shè)計了在M工11LSM上的并行分詞算法,并建立了單機模擬實驗系統(tǒng)PARASEG。經(jīng)過在PARASEG系統(tǒng)上的模擬實驗,證明該方法是一種可行而且有效的并行分詞方法。、該方、去具有、良高白勺理論、口應(yīng)用、介值。它,IF用并、于計算技術(shù)實現(xiàn)了分詞,口山東大學(xué)碩士學(xué)位論文ABSTRACTWORDSEGMENTATIONISTHEFIRSTANDAFUNDAMENTALSTEPFORCHINESEINFORMATIONPROCESSINGANDISALWAYSONEOFTHEMOSTIMPORTANTTOPICSOFCHINESEPROCESSINGBUTTHEACCURACYOFTHECURRENTMETHODSOFWORDSEGMENTATIONCANNOTSATISFYTHEREQUIREMENTOFTHEAPPLICATIONASITISPOINTEDTHEACCURACYOFSEGMENTATIONDEPENDSONTHEMETHODOFWORDDISAMBIGUATIONONEOFTHEBESTMETHODSOFWORDDISAMBIGUATIONISTHROUGHTHESYNTACTICSEMANTICANALYSISWHICHHASAHIGHCOMPLEXITYANDTHEPRESENTSIMPLEMETHODSOFSEGMENTATIONISDIFICULTTOREALIZETORAISETHEACCURACYANDEFFICIENCYOFWORDSEGMENTATIONTHISPAPERPRESENTSAMETHODOFPARALLELWORDSEGMENTATIONITCANMAKETHEPROCESSINGOFWORDSEGMENTATIONANDSYNTACTICANDSEMANTICANALYSISMOREEFFICIENTBYMAKINGUSEOFTHEIRINTERACTIONSWITHEACHOTHERBASEDONCURRENTMETHODSOFWORDSEGMENTATIONANDANALYSISMETHODSOFOMNIWORDSEGMENTATIONAREDISCUSSEDINTHISPAPERFIRSTLYTHEPROBLEMOFWORDOMNISEGMENTATIONISDISCUSSEDTHENAMODELOFWORDOMNISEGMENTATIONISPROPOSEDANDTHEPROBLEMOFREDUNDANTSEGMENTATIONEXISTEDGENERALLYINTHEPROCESSOFOMNISEGMENTATIONISPOINTEDOUTBASEDONTHEABOVETHEALGORITHMOFSEQUENTIALANDPARALLELWORDOMNISEGMENTATIONANDTHEMETHODOFEARLYPRUNINGOFUNACCEPTEDSEGMENTATIONFORMSAREDISCUSSEDANDAMODELOFSEQUENTIALWORDOMNISEGMENTATIONALGORITHMISGIVENINTHISWAYANOVELPARALLELAPPROACHFORCHINESEWORDSEGMENTATIONISPROPOSEDTHEAPPROACHPERFORMSTHESEGMENTATIONWHILETHEINPUTISENTERINGANDATTHESAMETIMETHEAMBIGUITYRECOGNITIONWITHSYNTACTICANDSEMANTICANALYSISISACHIEVEDINTHISWAYTHEPARALLELOFINPUTANDSEGMENTATIONTHESEGMENTATIONANDSYNTACTICANDSEMANTICANALYSISISREALIZEDANDTHECORRECTSEGMENTATIONISOBTAINEDATTHEENDOFINPUTTHESYSTEMARCHITECTUREANDTHEPARALLELALGORITHMFORTHEAPPROACHAREGIVENINTHISPAPERANDASIMULATIONSYSTEMPARASEGISCONSTRUCTEDTHESIMULATIONOFTHEMETHODONASINGLECPUHARDWAREHASPROVEDTHATTHEIDEAPROPOSEDINTHISPAPERISBOTHFEASIBLEANDEFFECTIVETHEAPPROACHHASHIGHVALUEBOTHINTHEORYANDAPPLICATIONITADOPTSTHECURRENTPARALLELCOMPUTINGTECHNOLOGYFORTHEACHIEVEMENTOFTHEPARALLELIMPLEMENTATIONOFWORDSEGMENTATIONANDSYNTACTICSEMANTICANALYSISINTHISWAYTHEPROCESSOFWORDSEGMENTATIONISGREATLYACCELERATEDBYMAKINGFULLUSEOFTHEHARDWARERESOURCESITSIMPLEMENTATIONONPARALLELHARDWARECANMAKEITPOSSIBLEM
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 65
大?。?1.91(MB)
子文件數(shù):
-
簡介:本文詳細描述了中文智能搜索引擎中漢語自動分詞模塊的設(shè)計方案與實現(xiàn)方法。本文從目前發(fā)展迅速的搜索引擎技術(shù)的綜述出發(fā),結(jié)合中文智能搜索引擎技術(shù)的發(fā)展現(xiàn)狀以及具體應(yīng)用情況出發(fā),根據(jù)項目要達到的目標逐步引出課題中心漢語自動分詞模塊的設(shè)計與實現(xiàn)。然后從理論上分析和比較了目前的各種漢語自動分詞方法,對各種分詞方法的技術(shù)特點進行了闡述,對自動分詞發(fā)展現(xiàn)狀和趨勢作了概括性的總結(jié)。根據(jù)課題應(yīng)用具體現(xiàn)狀,闡述了適合于本課題的分詞方法和分詞模塊預(yù)期達到的性能指標。最后詳細描述了漢語自動分詞模塊的具體設(shè)計,包括總體設(shè)計以及各模塊設(shè)計等,同時給出了一些關(guān)鍵性的例程說明和程序設(shè)計的關(guān)鍵點總結(jié)。本文所包含的內(nèi)容完全是面向應(yīng)用的,具體的技術(shù)選擇與整體的設(shè)計思想完全根據(jù)實際的應(yīng)用需求而定,采用的都是比較成熟的技術(shù),實現(xiàn)了理論聯(lián)系實際。另外,本文所描述的漢語自動分詞模塊已可以在基于命令行的情況下,進行分詞處理。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 60
大小: 1.85(MB)
子文件數(shù):
-
簡介:暨南大學(xué)碩士學(xué)位論文題名(中英對照)透明度對中高級水平透明度對中高級水平在華在華留學(xué)生漢語慣用語留學(xué)生漢語慣用語理解理解的影響的影響THEINFLUENCEOFSEMANTICTRANSPARENCYONTHECOMPREHENSIONOFCHINESEIDIOMSOFOVERSEASSTUDENTS作者姓名許穎指導(dǎo)教師姓名張禮學(xué)位、職稱博士副教授學(xué)科、專業(yè)名稱漢語國際教育學(xué)位類型專業(yè)學(xué)位論文提交日期2016年4月論文答辯日期2016年6月答辯委員會主席方曉燕論文評閱人盲審學(xué)位授予單位和日期I中文摘要中文摘要漢語慣用語是一種大量存在于日常口語交際中的熟語,語言凝練卻又寓意深刻,但是由于其本身的意義兩重性,為留學(xué)生的理解和習(xí)得增加了不少困難,這也使得慣用語成為對外漢語教學(xué)的重點和難點。本文在前人研究的基礎(chǔ)上,選取透明度作為切入點對留學(xué)生漢語慣用語理解情況進行研究,主要通過問卷調(diào)查的方式,對廣州地區(qū)多所高校121名中高級水平留學(xué)生漢語慣用語理解情況進行了考察。具體研究方法是以慣用語透明度為背景,從答題正確率和造成留學(xué)生釋義誤選的干擾因素兩方面著手分析,再結(jié)合留學(xué)生自身情況選取了多個視角從不同層次對其漢語慣用語理解進行分析,主要包括依據(jù)透明度水平差異對總體情況進行分析,結(jié)合留學(xué)生漢語慣用語掌握情況進行具體分析,以及對不同漢語水平等級留學(xué)生作進一步的分析等。目的在于全面深入地了解不同視角中透明度具體是如何對留學(xué)生在漢語慣用語理解上產(chǎn)生影響的。最后結(jié)合本文研究成果,從透明度的角度對慣用語教學(xué)在教材編排、教學(xué)策略以及教學(xué)方法上提出了一些意見和建議。關(guān)鍵詞透明度關(guān)鍵詞透明度慣用語慣用語理解理解留學(xué)生留學(xué)生對外漢語教學(xué)對外漢語教學(xué)
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 76
大?。?1.54(MB)
子文件數(shù):
-
簡介:分類編號密級單位代碼OQQ魚5學(xué)號13000300T5天滓J幣苊大擘研究生學(xué)位論文學(xué)生姓名衛(wèi)童蠖申請學(xué)位級別熊申請專業(yè)名稱廑旦墜理堂研究方向閨遺皇進日砬指導(dǎo)教師姓名閨國歪』專業(yè)職稱熬攮提交論文日期圣Q魚生圣旦天津師范大學(xué)學(xué)位論文原創(chuàng)聲明本人鄭重聲明此處所提交的學(xué)位論文漢語閱讀中主觀詞加工的眼動研究,是本人在導(dǎo)師指導(dǎo)下,在天津師范大學(xué)攻讀碩士學(xué)位期間獨立進行研究工作所取得的成果。據(jù)本人所知,論文中除已注明部分外不包含他人已發(fā)表或撰寫過的研究成果。對本文的研究工作做出重要貢獻的個人和集體,均己在文中以明確方式注明。本聲明的法律結(jié)果將完全由本人承擔。作者簽名弓碭洳期。功J6年月弓日天津師范大學(xué)學(xué)位論文使用授權(quán)書漢語閱讀中主觀詞加工的眼動研究系本人在天津師范大學(xué)攻讀學(xué)位期問在導(dǎo)師指導(dǎo)下完成的學(xué)位論文。本論文的研究成果歸天津師范大學(xué)所有,本論文的研究內(nèi)容不得以其他單位的名義發(fā)表。本人完全了解天津師范大學(xué)關(guān)于保存、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向有關(guān)部門送交論文的復(fù)印件和電子版本,允許論文被查閱和借閱,同意學(xué)校將論文加入中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫和編入中國知識資源總庫。本人授權(quán)天津師范大學(xué),可以采用影印、縮印或其他復(fù)制手段保存論文,可以公布論文的全部或部分內(nèi)容。本學(xué)位論文屬于請在以下相應(yīng)方框內(nèi)打“4”;保密口,在年解密后適用本授權(quán)書不保密酣作者簽名砸逝期測辟6月弓日導(dǎo)師簽名日期列C;年6月≥日
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 116
大?。?5.78(MB)
子文件數(shù):
-
簡介:IIIIIIIIIIIIIIIIII111Y3299950分類號UDC____■●●■■___■●■一中唯J『籠夫蓐士學(xué)位論文密級編號、學(xué)位申請人姓名塞笪釜申請學(xué)位學(xué)生類別全日劍碩士申請學(xué)位學(xué)科專業(yè)漢語LL際教宣指導(dǎo)教師姓名蘇俊波副教授牟碩THERESEARCHABOUTTHESENTENCEPATTERNOF“HAVEVP,,WITHTHEANGLEOFTEACHINGCHINESEASASECONDLANGUAGEATHESISSUBMITTEDINPARTIALFULFILLMENTOFTHEREQUIREMENTFORTHEMASTER奢DEGREEINTEACHINGCHINESEASASECONDLANGUAGEBY物AN物EHUAPOSTGRADUATEPROGRAMRESEARCHCENTERFORLANGUAGEANDLANGUAGEEDUCATIONCENTRALCHINANORMALUNIVERSITYSUPERVISORSUJUNBOACADEMICTITLEPROFESSORSIGNATURE虧。孓’APPROVEDAPRIL2017
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 38
大?。?2.57(MB)
子文件數(shù):
-
簡介:具有表現(xiàn)力的文語轉(zhuǎn)換系統(tǒng)有著廣闊的應(yīng)用前景。本課題著重于研究韻律和語調(diào)對普通話語音表現(xiàn)力的影響以及這兩者在漢語語音合成中的應(yīng)用。其中,韻律特征主要從重音,停頓以及語速三方面進行描述。通常,一句話中著重強調(diào)的詞語即是重音,語音合成時,重音可以通過增大語音的幅度和提高語音的基頻實現(xiàn)控制。停頓則是指詞間或句間的間歇,合成時,可以在語音參數(shù)的相應(yīng)位置插入零值實現(xiàn)。語速是指朗讀文本的速度,一般由說話者的個人風(fēng)格以及文本思想內(nèi)容共同決定,語速的調(diào)節(jié)分為減慢和加快,減慢是通過在語音參數(shù)一定的位置復(fù)制粘貼相鄰幀的語音參數(shù)實現(xiàn),加快則是通過刪除特定幀參數(shù)實現(xiàn)。由于漢語是有調(diào)語言,所以語調(diào)對于漢語的語音合成也具有重要的意義。本課題研究的語調(diào)主要是指語句音高的變化,根據(jù)音高的不同走勢,可將語調(diào)分為四種調(diào)型升調(diào),降調(diào),平調(diào)以及曲折調(diào)。研究時,首先建立有調(diào)語音的語音庫,然后采用STRAIGHT算法分析有調(diào)語音庫的基音頻率,再用多項式函數(shù)對歸一化后的語音基頻曲線進行擬合,建立每一種調(diào)型的基頻模型。這里采用了三種方法進行語調(diào)建模均值模型,單高斯模型以及混合高斯模型。通過建立的語調(diào)模型可以實現(xiàn)將一種語調(diào)轉(zhuǎn)換成另一種語調(diào)。本系統(tǒng)中,語音合成模塊也是采用STRAIGHT算法,對經(jīng)過韻律及語調(diào)調(diào)整后的參數(shù)進行拼接合成。從實驗結(jié)果來看,在漢語文語轉(zhuǎn)換系統(tǒng)中,采用本課題提出的方法加入韻律和語調(diào)控制模塊,可以靈活地調(diào)節(jié)語音的韻律特征,實現(xiàn)語調(diào)之間的轉(zhuǎn)換,合成出的聲音自然度較高,語音質(zhì)量較好,明顯地增強了語音的表現(xiàn)力。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 55
大?。?2.48(MB)
子文件數(shù):
-
簡介:作為中文信息處理的關(guān)鍵問題之一漢語詞法分析主要包括分詞、詞性標注和詞義消歧三個子任務(wù)。雖然近年來漢語詞法分析取得很大進展但處理大規(guī)模開放文本時依然面臨巨大的挑戰(zhàn)尤其是未登錄詞問題。因此如何有效發(fā)掘和表示詞法特征并解決未登錄詞識別和預(yù)測問題是目前漢語詞法分析研究所面臨的一個主要困難同時也是一個研究熱點。本文以大規(guī)模語料庫為基礎(chǔ)在機器學(xué)習(xí)框架下融合詞語內(nèi)部和上下文特征研究基于語素的漢語詞法分析方法重點解決漢語未登錄詞識別及其詞性和詞義預(yù)測問題。具體地本文從以下三個方面展開研究首先本文以語素為基本構(gòu)詞單位利用條件隨機場模型進行漢語分詞研究重點探索了不同標記集和不同窗口大小對基于語素的漢語分詞模型分詞性能的影響。在SIGHANBAKEOFF2005數(shù)據(jù)上的實驗結(jié)果表明語素的引入有利于未登錄詞識別性能的提高。其次針對漢語詞性標注中存在的未登錄詞詞性預(yù)測問題本文以語素為基礎(chǔ)發(fā)掘并融合詞語內(nèi)部的詞法特征實現(xiàn)了一個基于最大熵模型的漢語詞性標注系統(tǒng)并重點分析了影響漢語未登錄詞詞性預(yù)測性能的各種因素。在SIGHANBAKEOFF2007詞性標注數(shù)據(jù)上的實驗表明基于語素的漢語詞性標注方法在未登錄詞詞性預(yù)測方面具有較大優(yōu)勢。最后本文提出一種基于中心語素的樸素貝葉斯模型并在該模型下進行漢語未登錄詞的詞義預(yù)測研究。初步的實驗證明基于中心語素的樸素貝葉斯模型可以在一定程度上解決漢語未登錄詞的詞義預(yù)測問題。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 70
大?。?2.15(MB)
子文件數(shù):
-
簡介:該論文回顧了漢語連續(xù)語音識別的基礎(chǔ)知識包括隱含馬爾可夫模型、語音特征參數(shù)的提取、聲學(xué)模型、語言模型、識別過程和漢語的聲學(xué)特點自適應(yīng)技術(shù)從實現(xiàn)方法上可分為基于特征向量轉(zhuǎn)換和基于模型參數(shù)轉(zhuǎn)兩大類例譜均值歸一化是一種簡單有效的基于特征向量轉(zhuǎn)換的方法基于模型參數(shù)轉(zhuǎn)換的方法最流行的是最大后驗概率算法和最大似然線性回歸技術(shù)該文對以上的算法進行了詳細的介紹在實驗中我們建立了漢語的關(guān)鍵詞識別系統(tǒng)和漢語的大詞匯表連續(xù)語音識別系統(tǒng)該文還研究了撰寫方式的說話人自適應(yīng)提出了多遍處理的自適應(yīng)方法置信度評估則分兩步先用較為簡單的方法排除一部分錯誤識別結(jié)果再用基于NBEST的評分方法挑出置信度最高的結(jié)果新的方法相對非特定說話人的模型和參考模型都有明顯改進
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 57
大?。?1.55(MB)
子文件數(shù):
-
簡介:密級學(xué)校代碼10075分類號學(xué)號20150509漢語國際教育碩士專業(yè)學(xué)位論文網(wǎng)絡(luò)流行語在對外漢語教學(xué)中的應(yīng)用網(wǎng)絡(luò)流行語在對外漢語教學(xué)中的應(yīng)用學(xué)位申請人段又挺指導(dǎo)教師郭伏良教授學(xué)位類別漢語國際教育碩士專業(yè)學(xué)位學(xué)科專業(yè)漢語國際教育碩士授予單位河北大學(xué)答辯日期二〇一七年五月
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 58
大小: 2.49(MB)
子文件數(shù):
-
簡介:關(guān)鍵詞檢出技術(shù)是語音識別研究中的一個重要領(lǐng)域,其目的是在連續(xù)的語音流中檢出特定的關(guān)鍵詞。相對于連續(xù)語音識別來說,關(guān)鍵詞檢出技術(shù)有資源與時間耗費少,正確率高,實用性強等特點,所以它在很多領(lǐng)域有著良好的應(yīng)用前景。本文的主要研究內(nèi)容是面向?qū)崟r應(yīng)用的漢語關(guān)鍵詞檢出技術(shù),要求實現(xiàn)的漢語關(guān)鍵詞檢出系統(tǒng),不僅具有良好的識別性能,而且能夠滿足實時性要求,可以應(yīng)用于實時環(huán)境。本文首先系統(tǒng)地介紹了關(guān)鍵詞檢出系統(tǒng)的框架和原理。其次,實現(xiàn)一個關(guān)鍵詞檢出基線系統(tǒng),利用863語料庫離線訓(xùn)練模型庫,并使用令牌傳遞TOKENPASSING算法實現(xiàn)在線識別部分,但該系統(tǒng)的識別速度不能達到實時性要求。然后,對這個基線系統(tǒng)進行面向?qū)崟r應(yīng)用的改進其一是從限制模型的角度,提出了限制上下文相關(guān)的詞內(nèi)相關(guān)音素模型,大大減少了模型規(guī)模,提高了識別速度;針對誤識率高的問題,提出了基于聲學(xué)置信度的關(guān)鍵詞確認方法,并實現(xiàn)了多次解碼機制,在基于聲學(xué)似然比確認算法的實驗中取得了較好的結(jié)果;其二是從解碼算法的角度,分析和研究了剪枝門限和最大激活模型數(shù)對識別速度和性能的影響,研究了在保證識別性能基礎(chǔ)上有效降低識別時間的最佳參數(shù)因子的選擇,并加入確認機制進行相關(guān)實驗,得到了令人滿意的結(jié)果。最后,在結(jié)論中對關(guān)鍵詞檢出的進一步研究方向進行了討論。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 61
大小: 1.01(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 57
大?。?1.98(MB)
子文件數(shù):
-
簡介:該文研究了基于漢語樹庫構(gòu)造概率句法分析器的問題在概率模型方面該文擴展了PCFG的定義提出了三個逐步詳盡化的模型新的模型突破了PCFG不合理的獨立性假設(shè)把局部結(jié)構(gòu)上下文對于派生過程的約束作用加以刻畫該文也提出了具有一般性的操作過程令這種擴展易于推廣該文報告了在賓州中文樹庫上取得的實驗結(jié)果最好的模型在標記精確率上可以達到772﹪在標記召回率上可以達到777﹪在算法方面該文深入研究了T算法的優(yōu)化提出了更為有效和通用的預(yù)讀機制應(yīng)用或提出了多種篩選活動邊的策略在算法的概率化方面該文提出了行之有效的控制機制并且提出了利用閾值控制活動邊數(shù)量的方案在犧牲12﹪的準確性的前提下可以提高分析速度3050﹪
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 62
大小: 1.8(MB)
子文件數(shù):