-
簡介:自然語言處理已歷時三十年了,熱潮莫過于機(jī)器翻譯。機(jī)器翻譯的熱潮過去后,逐漸進(jìn)入平靜、現(xiàn)實(shí)的務(wù)實(shí)階段。近期人們將目標(biāo)定在資料整理、因特網(wǎng)上檢索、摘要、過濾以及限定應(yīng)用領(lǐng)域的人機(jī)對話、語言服務(wù)等方面。本文介紹漢語語音識別文本自動糾錯的研究。漢語語音識別技術(shù)己發(fā)展到一定階段,但連續(xù)漢語語音識別的效果離實(shí)用還有一定差距,表現(xiàn)之一是識別文本含錯多。目前,學(xué)術(shù)界尚未明確提出語音識別文本的自動糾錯技術(shù)。從形式上看,語音識別文本的自動糾錯也可以看成是文本自動校對技術(shù)在語音輸入方面的應(yīng)用。文本自動校對技術(shù)研究漢語輸入鍵盤、OCR的自動查錯和糾錯。但無論現(xiàn)象和原因,語音輸入出錯都比鍵盤、OCR復(fù)雜,語音識別錯誤的恢復(fù)繞不開對語音識別系統(tǒng)所用語言模型的研究。所以本質(zhì)上,語音識別文本的自動糾錯屬于語音識別后處理過程。本文雖題為文本糾錯,但不拘泥于文本層面,而是深入到語音識別系統(tǒng)內(nèi)部,從語音識別系統(tǒng)所用語言模型的角度研究出錯和糾錯。本文的工作,也圍繞語言模型和文本校對兩條主線展開。本文以主流產(chǎn)品IBM公司的VIAVOICE98中文連續(xù)語音聽寫系統(tǒng)和VIAVOICETELEPHONY電話語音識別系統(tǒng)作為研究系統(tǒng)實(shí)例。前者用于通用領(lǐng)域文本的輸入,后者用于限定領(lǐng)域交通查詢的信息提取??紤]到目標(biāo)的難度,用特定人和新聞稿測試前者,以獲得較高的文本正確率和糾錯起點(diǎn)。通用領(lǐng)域句式復(fù)雜多變,不深入語音識別系統(tǒng)內(nèi)部尋找規(guī)律的話很難有所作為。VIAVOICE98單純使用3元詞法模型,忽略了詞性和語義搭配信息。本文提出的后處理方法,通過大規(guī)模語料訓(xùn)練設(shè)計出增強(qiáng)的語言模型,利用VIAVOICE系統(tǒng)語音識別時生成的中間結(jié)果WDLATTICE詞網(wǎng)格作為工作起點(diǎn),用動態(tài)規(guī)劃法生成NBEST候選句,并以該增強(qiáng)的語言模型評優(yōu)。利用WDLATTICE既能充分利用語音識別系統(tǒng)的中間信息,又避免了介入語音識別系統(tǒng)內(nèi)部形成干擾。提出的語言模型針對VIAVOICE所用語言模型的不足而設(shè)計,保證了糾錯的效果。引入詞性類和語義類的概念,回避了含錯文本的詞性和語義兼類排歧問題。限定領(lǐng)域句式相對簡單,出錯也較有規(guī)律,但統(tǒng)計法所必需的大規(guī)模訓(xùn)練語料不易獲取。本文就上海市內(nèi)交通電話查詢特定領(lǐng)域用規(guī)則法處理糾錯。通過總結(jié)識別文本中的出錯規(guī)律,定義了相應(yīng)的用于查錯和糾錯的詞形、語義和語用規(guī)則。識別文本經(jīng)切分、語義標(biāo)注,逐次檢查詞形、語義標(biāo)記搭配和語用信息,一俟匹配查錯規(guī)則就激發(fā)糾錯。針對識別文本含錯嚴(yán)重的現(xiàn)狀,該法更多地依賴對出錯現(xiàn)象的分析和對領(lǐng)域信息的應(yīng)用。在本實(shí)驗(yàn)室開發(fā)的SHANGHAIQUEST上海市電話語音交通查詢系統(tǒng)中使用該法后,大約半數(shù)的識別錯誤能夠被自動糾正,顯著地支持了后續(xù)理解。由于漢語查錯糾錯問題的特殊性,實(shí)際系統(tǒng)僅依賴基本方法尚難達(dá)到實(shí)用。在本文的最后,提出了糾錯系統(tǒng)實(shí)用化的設(shè)計原則,并針對本文中兩個系統(tǒng)實(shí)例的不足,給出了進(jìn)一步改進(jìn)的側(cè)重點(diǎn)和方法。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 60
大?。?1.67(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 48
大?。?1.72(MB)
子文件數(shù):
-
簡介:特定對象的語音轉(zhuǎn)換系統(tǒng)目的在于在不改變語義的前提下改變源說話人的語音特征使其聲音聽起來更像目標(biāo)說話人的聲音。近年來對語音轉(zhuǎn)換系統(tǒng)的研究已經(jīng)成為了語音信號處理中一個非常關(guān)鍵的領(lǐng)域由于它涉及到很多其他的信號處理技術(shù)如語音識別語音合成等等所以對它的研究勢必會推動這些領(lǐng)域的發(fā)展。本文從漢語語音的音頻特征入手在預(yù)處理階段對于聲道頻譜包絡(luò)特性和基音頻率特性提出了兩種不同的混合分幀策略消除了傳統(tǒng)定長分幀對漢語語音特點(diǎn)的掩蔽;在訓(xùn)練階段采用了以音素為單位對高斯混合模型GMM的進(jìn)行訓(xùn)練的方法提高了語音信號建模的精度;在轉(zhuǎn)換階段采用基于GMM和碼本映射的混合算法有效解決了GMM轉(zhuǎn)換頻譜包絡(luò)時過于平滑的問題提高了轉(zhuǎn)換后語音的質(zhì)量。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 56
大?。?1.74(MB)
子文件數(shù):
-
簡介:廣播語音識別技術(shù)的研究是當(dāng)前大詞匯量連續(xù)語音研究的一個熱點(diǎn)問題。廣播電視新聞節(jié)目包括了說話人、方言口音、聲道變化、聲學(xué)環(huán)境的一系列聲學(xué)的復(fù)雜特征,對于語音技術(shù)的實(shí)用化研究是一種理想的研究對象,對于語音技術(shù)走向?qū)嵱没矫嬗兄卮蟮囊饬x。本文針對廣播語音識別系統(tǒng)中的關(guān)鍵問題,在以下幾個方面進(jìn)行了廣泛和深入的研究。首先,在廣播語音的音頻數(shù)據(jù)切分方面,本文提出了一種基于檢測熵變化趨勢的變窗長音頻特征跳變點(diǎn)檢測方法。本文提出的方法在一個固定的數(shù)據(jù)窗內(nèi),通過檢測窗內(nèi)所有可能跳變點(diǎn)的熵的變化趨勢來最終確定真實(shí)的音頻跳變點(diǎn)。這種方法不同于傳統(tǒng)的基于BIC準(zhǔn)則的音頻跳變點(diǎn)檢測方法,避免了由于設(shè)定固定門限而導(dǎo)致引起漏檢和數(shù)據(jù)積累帶來的累積誤差。在分類的過程中,用分組高斯方法代替?zhèn)鹘y(tǒng)的高斯混合模型GMM分類器,取得了更加準(zhǔn)確的分類結(jié)果,實(shí)現(xiàn)了快速高效的基于矢量量化的多碼本聚類算法。其次,在廣播語音識別系統(tǒng)的自適應(yīng)訓(xùn)練方面,本文提出了一種基于子空間聚類的多層MLLR自適應(yīng)算法,這種算法在子空間框架下對高斯模型進(jìn)行聚類,基于目標(biāo)驅(qū)動的原則,通過引入反饋機(jī)制,根據(jù)自適應(yīng)數(shù)據(jù)的似然概率的增加動態(tài)的決定自適應(yīng)變換類的數(shù)目。通過采取子空間聚類的策略,大大減少了待估計參數(shù)的數(shù)目。實(shí)驗(yàn)結(jié)果表明,本方法在自適應(yīng)數(shù)據(jù)比較少的情況下,有著比傳統(tǒng)基于自適應(yīng)回歸樹算法更高的識別率。在無監(jiān)督自適應(yīng)方面,本文對可信度機(jī)制做了一些探討,通過合理的引入可信度機(jī)制可以提高系統(tǒng)無監(jiān)督自適應(yīng)的性能。最后,在廣播語音的聲學(xué)建模方面,針對現(xiàn)有對角方差建模的缺陷與不足,在空間旋轉(zhuǎn)變換的理論基礎(chǔ)上,結(jié)合部分方差共享STC的模型補(bǔ)償方法,本文提出一種基于共享狀態(tài)空間旋轉(zhuǎn)變換的相關(guān)特征建模方法TYINGSSR。通過狀態(tài)空間旋轉(zhuǎn)變換方法SSR,在變換后的新的特征空間實(shí)現(xiàn)解相關(guān)的目的,在新的不相關(guān)的空間采用對角方差建模技術(shù)對聲學(xué)特征進(jìn)行精確建模。以似然概率損失最小為原則,對變換矩陣進(jìn)行合并共享,通過BIC準(zhǔn)則方法確定最終的合并類數(shù),最后用部分方差共享技術(shù)對變換矩陣的參數(shù)進(jìn)行模型補(bǔ)償和重估。避免了由于變換矩陣過多,在識別解碼階段增加系統(tǒng)的存儲空間和運(yùn)算量的增加。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 125
大?。?3.36(MB)
子文件數(shù):
-
簡介:天津師范大學(xué)碩士學(xué)位論文從翻譯規(guī)范看漢語旅游語篇的英譯姓名張君申請學(xué)位級別碩士專業(yè)英語語言文學(xué)指導(dǎo)教師李運(yùn)興20070401TRANSLATIONHASLONGBEENCONCEIVEDNORMATIVEBOTHATHOMEANDABROADSINCEITSBEGINNINGTRANSLATIONTHEORIESHAVECONSISTEDOFRESTRICTIVEGUIDELINESOILHOWTOTRANSLATEHOWEVERINRECENTDECADES,THEASSUMPTIONTHATPRESCRIPTIVERULESSHOULDBEESTABLISHEDFORTRANSLATORTOFOLLOWHASINCREASINGLYBEENQUESTIONEDANDMANYSCHOLARSHAVEATTEMPTEDTOEXPLORETRANSLATIONINDESCRIPTIVEWAYSGIDEONTOURYSRATIONALEFORDESCRIPTIVETRANSLATIONSTUDIESISONCOFSUCHTHEORIESHETAKESTRANSLATIONAS矗NORMGOVERNEDACTIVITYTHATIS,TRANSLATIONISGOVERNEDBYHISTORICAL,SOCIALANDCULTURALFACTORSINDIFFERENTLANGUAGESANDCULTURESTRANSLATIONALNORILLQ,THECOREOFHISTHEORYAREDIFFERENTFROMABSOLUTEGENERALRULESANDPUREIDIOSYNCRASIESANDTHEILORMAREUNSETTLEDANDMULTIPLETHUSTHETRANSLATORSDONOTNEEDTOSTICKTOTHECOMPLETEEQUIVALENCEOFSOURCETEXTSCHINAISRICHINTOURISMLESOILRCCSONTHEONEHAND,TOURISMINDUSTRYHASBEENDEVELOPEDPROSPEROUSLYONTHEOTHERHAND,GOODANDAWKWARDTOURISMTRANSLATIONSCOEXISTWITHEACHOTHERWHICHEXERTGREATINFLUENCEOILTHETOURISMTHUSITISBADLYBASEDONTOTLRYSTHEORYONTRANSLATIONALILORMSTHISPAPERMAKESCONTRASTIVEANDCOMPARATIVEANALYSISOFCHINESEANDENGLISHPARALLELTEXTSTOESTABLISHNORLIIINTRANSLATINGTOURISTTEXTSFROMCHINESETOENGLISHANDGIVEIMPLICATIONTOFUTURETRANSLATIONITISFOUNDTHATTOFHL6HTHEPERSUASIVEFUNCTIONOFTOURISTTEXTSTRANSLATORSSHOULDADHERETOILORILLOFTHETARGETCULTUREINTRANSLATINGFROMCHINESETOENGLISH
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 58
大小: 1.38(MB)
子文件數(shù):
-
簡介:本文在詞語相似度計算的基礎(chǔ)上重點(diǎn)研究了中文信息處理中的句子相似度。首先,比較了詞語相似度計算的不同方法,實(shí)現(xiàn)了目前效果較好的基于HNC的詞語相似度計算方法其次,提出了基于HNC判斷同義詞和反義詞的方法,簡化了詞語相似度計算,并用計算機(jī)實(shí)現(xiàn);然后,在詞語相似度計算的基礎(chǔ)上,針對目前句子相似度計算方法中存在的沒有考慮句子結(jié)構(gòu),詞語在句子中出現(xiàn)的重要程度,詞語在句子中所起的作用等方面的不足,提出了基于HNC語義塊的句子相似度計算方法。最后,結(jié)合主觀題自動批閱,給出了句子相似度計算方法的應(yīng)用實(shí)例,應(yīng)用實(shí)踐表明本文所提出方法在邏輯錯誤判斷,語義理解方面比目前現(xiàn)有的句子相似度的方法更接近人為判斷結(jié)果,更易實(shí)現(xiàn),操作更簡單。具體來講本文在句子相似度計算的研究過程中,所做的主要工作及取得的主要成果如下1比較分析了詞語相似度計算的各種方法,實(shí)現(xiàn)了基于HNC的詞語相似度計算方法,為下一步句子相似度的計算打下基礎(chǔ)。2提出了一種基于HNC同義詞和反義詞判別方法。通過詞對出現(xiàn)的規(guī)則來判斷是否是同義詞反義詞,由于引入了語義,簡化了詞語相似度的計算。3在詞語相似度的基礎(chǔ)上,提出了基于HNC語義塊的句子相似度計算方法。該方法充分考慮了語句中各個詞語在語句中所處的位置以及所起的作用。4把基于HNC語義塊的句子相似度的計算方法用于成語解釋的自動批閱中,通過老師人工批閱和計算機(jī)批閱的學(xué)生得分情況對比表明本文所提出的句子相似度計算方法的實(shí)用性和有效性。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 65
大?。?3.13(MB)
子文件數(shù):
-
簡介:鄭州大學(xué)碩士學(xué)位論文議漢語的PRO和PRO姓名宋秀平申請學(xué)位級別碩士專業(yè)英語語言文學(xué)指導(dǎo)教師楊廣俊20030515ABSTRACTEMPTYCATEGORYISONEOFTHEIMPORTANTTOPICSINTRANSFORMATIONALGRAMMAR,WHILEBOTHPROANDPROOCCUPIESTHEKEYPOSITIONINEMPTYCATEGORY,WHICHISONEOFTHEMOSTCONTROVERSIALTOPICSSOFAR,VERYFEWPAPERSEXPLOREPROANDPROINCHINESE,FURTHERMORETHEIRVIEWPOINTSAREDIFERENTFROMEACHOTHERWITHTHISINMIND,IPUTFORWARDAHYPOTHESISTODEALWITHSUCHANISSUEAFTERDISCUSSINGSOMEEVIDENCE,WHICHFOCUSESONTHECLASSIFICATIONANDREFERENCESOFCHINESEEMPTYSUBJECTSTHETHESISISDIVIDEDINTO5PARTSPARTONETALKSABOUTTHEDEFINITIONANDTHEROLEOFEMPTYCATEGORIESECANDTHEECTHEORIESOFCHOMSKY,INDICATINGTHATTHETHESISWILLFOCUSONTHELICENSINGMECHANISMANDREFERENCESOFCHINESEPROANDPRO,ANDSHOWINGTHATTHERESEARCHINTOCHINESEPROANDPROISVERYSIGNIFICANTMEANWHILETHEAUTHORALSOPOINTSOUTTHATTHEDISTINCTIONBETWEENCHINESEFINITENESSANDNONFINITENESSISAVITALFACTORINDETERMININGTHECLASSIFICATIONOFCHINESENULLSUBJECTSPARTTWODEALSWITHLINGUISTSCONTROVERSIESOVERTHEDISTINCTIONBETWEENCHINESEFINITENESSANDNONFINITENESSANDTHEEXISTENCEOFCHINESEPROANDPROPARTTHREEANALYZESLINGUISTSDISPUTESOVERTHEDISTINCTIONBETWEENCHINESEFINITENESSANDNONFMITENESSANDTHEEXISTENCEOFCHINESEPROTHENTHEAUTHORFIRSTPROVESTHEEXISTENCEOFCHINESENONFINITECLAUSES,ANDTHENRAISESHEROWNSTANDARDFORJUDGINGCHINESEFINITENESSANDNONFINITENESS,THEARTICLESHOWSTHATTHENULLSUBJECTOFANONFINITECLAUSEISPROFINALLYTHEREFERENCEOFPROISANALYZEDINTHREEASPECTSPARTFOUR,FIRST,SHOWSDIFERENTLINGUISTSDEBATESONCHINESEPROTHENTHEAUTHORREVEALSTHATTHEPROLICENSINGCONDITIONUNDERGOVERNMENTANDBINDINGTHEORYHASSPECIFICCHARACTERISTICSINDIFERENTLANGUAGES,PUTSFORWARDANEWHYPOTHESISABOUTANOTHERLICENSINGMECHANISMCALLEDFREEINVERSIONABOUTWHICHHEATEDDISCUSSIONSHAVEALREADYARISEN,ANDINDICATESTHATTHEMORPHOLOGICALCONFORMITYUNDERTHENULLSUBJECTPARAMETERISMOREREASONABLETOLICENSEPROINPRODROPLANGUAGES,WHICH,OF
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 68
大小: 1.91(MB)
子文件數(shù):
-
簡介:當(dāng)前,語音識別技術(shù)在飛速的發(fā)展,識別程度也在不斷的提高。語音識別的穩(wěn)健性,識別系統(tǒng)的可移植性,識別系統(tǒng)對環(huán)境、說話人、麥克風(fēng)的自適應(yīng)性成為衡量一個系統(tǒng)好壞的重要指標(biāo),一個完整的語音識別系統(tǒng)要經(jīng)歷以下過程,預(yù)處理,語音特征提取,語音模型建立,語音訓(xùn)練識別,然后回放播出或用語音進(jìn)行控制。本文介紹了語音信號處理的基本理論,回顧了國內(nèi)外語音識別發(fā)展歷史。詳細(xì)闡述了動態(tài)時間歸整算法和馬爾可夫模型的基本理論,并研究了它們應(yīng)用到特定人漢語小詞匯表識別中的方法。采用動態(tài)時間歸整模型形成的經(jīng)典語音識別算法常用在特定人小詞匯量語音識別系統(tǒng)中,本文提出了具有魯棒性的兩級端點(diǎn)檢測語音識別技術(shù),在語音信號采集時,對數(shù)據(jù)進(jìn)行提取并壓縮后形成模板,根據(jù)過零率,短時能量和匹配標(biāo)號分類。采用了多模板匹配算法識別。還研究了特定人漢語小詞匯表語音識別的隱馬爾可夫模型的基本原理,給出了隱馬爾可夫算法應(yīng)用到孤立詞語音識別中的一系列概率統(tǒng)計公式,訓(xùn)練參數(shù)最小估計,同時還給出用于語音訓(xùn)練的BAUMWELCH和VITERBI算法。依據(jù)HMM的運(yùn)行過程中出現(xiàn)的問題,提出解決的方法。在提出的新的模型中,為了取的有效的解決辦法和取得最佳關(guān)鍵路徑,我們對前向和后向算法進(jìn)行了優(yōu)化。經(jīng)過校正,對特定人漢語小詞匯表語音識別算法進(jìn)行實(shí)驗(yàn),結(jié)果顯示改進(jìn)后的語音識別方法同傳統(tǒng)的語音識別方法相比識別性能更好。相對于HMM算法,DWT算法對特定人識別要更好。更適合應(yīng)用到消費(fèi)類市場產(chǎn)品中,實(shí)驗(yàn)用18個字的漢語小詞匯量系統(tǒng)進(jìn)行了測試,識別成功率大于90%。采用51內(nèi)核單片機(jī),用較少的存儲空間和計算空間實(shí)現(xiàn)語音數(shù)據(jù)處理,不需要額外的器件。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 66
大?。?1.22(MB)
子文件數(shù):
-
簡介:山西大學(xué)2010屆碩士學(xué)位論文面向數(shù)據(jù)分析的漢語句法結(jié)構(gòu)樹研究作者姓名指導(dǎo)教師學(xué)科專業(yè)研究方向培養(yǎng)單位學(xué)習(xí)年限郭海旭呂國英副教授計算機(jī)軟件與理論中文信息處理計算機(jī)與信息技術(shù)學(xué)院2007年9月至2010年6月二。一。年六月目錄中文摘要IABSTRACTII第一章引言111研究的背景和意義112國內(nèi)外研究現(xiàn)狀113剖析漢語結(jié)構(gòu)特征,選擇句法分析技術(shù)路線214論文的組織安排3第二章語料庫的構(gòu)建521引言522語料庫的構(gòu)建5221語料庫數(shù)據(jù)來源6222構(gòu)建句法結(jié)構(gòu)語料庫7223句法截斷庫、片段庫的定義7224句法截斷庫、片段庫抽取算法923實(shí)驗(yàn)語料1324本章小結(jié)14第三章漢語事件描述小句識別一1531引言1532事件描述小句識別16321謂詞識別16322片語合并規(guī)則1733實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析18331單一規(guī)則對于句子的影響18332規(guī)則間的約束關(guān)系19333規(guī)則的串行執(zhí)行1934本章小結(jié)20第四章基于DOP的漢語句法結(jié)構(gòu)樹分析研究2L41引言21
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 50
大?。?1.37(MB)
子文件數(shù):
-
簡介:句法分析是自然語言處理的一個關(guān)鍵技術(shù),它對于語義分析、機(jī)器翻譯、信息檢索和自動文摘等有著極其重要的意義。所謂句法分析就是指對句子中詞語的結(jié)構(gòu)和語法功能進(jìn)行分析,其目的主要是確定句子的結(jié)構(gòu)和各成份間的關(guān)系。建立基于句法樹庫的統(tǒng)計模型是句法分析的重要研究方向,句法樹庫的標(biāo)注質(zhì)量直接影響模型的質(zhì)量。目前的許多漢語句法分析自動標(biāo)注算法的準(zhǔn)確率不夠高,需人工修正句法樹庫,并對修正結(jié)果進(jìn)行一致性檢驗(yàn)。我們采用的一致性檢驗(yàn)方法是通過多個標(biāo)注者對人工標(biāo)注過的文本進(jìn)行反復(fù)交叉校驗(yàn),盡量減少人工標(biāo)注的疏漏,然后掃描整個樹庫,檢查出不一致的標(biāo)注,即發(fā)現(xiàn)樹庫中同樣或類似的語言環(huán)境下標(biāo)注不一致的地方。本文在為阿里巴巴公司建設(shè)漢語句法樹庫的基礎(chǔ)上,通過對20000句語料庫完全句法樹庫的加工,探索不一致現(xiàn)象產(chǎn)生的原因及應(yīng)對策略,主要工作如下1根據(jù)漢語語料庫所面向的應(yīng)用需求,制定出相應(yīng)的句法樹加工規(guī)范,完備的加工規(guī)范有利于保證標(biāo)注結(jié)果的一致性。樹庫的標(biāo)注規(guī)范主要有以下兩部分標(biāo)注方式和標(biāo)記集。標(biāo)注方式介紹使用什么形式組織句子中詞與詞之間的關(guān)系。標(biāo)記集是描述漢語句法的功能特征和結(jié)構(gòu)關(guān)系的符號集合。標(biāo)注者參照標(biāo)注規(guī)范中的示例對自動標(biāo)注過的樹庫進(jìn)行人工修正。2分析完全句法分析不一致現(xiàn)象產(chǎn)生的原因及應(yīng)對方案。原因之一是規(guī)范本身不夠完善,我們分析討論人工修正句法樹庫的過程中遇到的問題,不斷對加工規(guī)范補(bǔ)充修正原因二是由于人工修正的操作有疏漏,需要對人工修正結(jié)果進(jìn)行一致性檢驗(yàn)。3提出基于分層的檢查方法和自動消解策略。樹庫中的不一致現(xiàn)象分為三個層次,即分詞、詞性標(biāo)注以及句法分析不一致。這三個層次是互相影響的,本文首先利用規(guī)則的方法,順序讀取樹庫,排查分詞不一致現(xiàn)象。然后通過聚類的方法檢查詞性標(biāo)注不一致現(xiàn)象。4分別從單層句法分析標(biāo)注和多層句法分析結(jié)構(gòu)優(yōu)先順序進(jìn)行句法分析不一致檢驗(yàn)。針對單層結(jié)構(gòu)或功能理解不同造成的不一致的消解,主要考慮通過規(guī)則的方法修正。本文主要使用基于轉(zhuǎn)換的錯誤驅(qū)動的標(biāo)注方法。對于多層句法分析結(jié)構(gòu)優(yōu)先順序引起的不一致,需要從結(jié)構(gòu)樹中結(jié)構(gòu)優(yōu)先順序方面考慮,建立語言環(huán)境支持向量模型,根據(jù)上下文信息確定出一種最合適的句法結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,分詞和詞性標(biāo)記的不一致對句法分析結(jié)果的不一致的影響是十分顯著的。經(jīng)過切分和詞性標(biāo)注一致性檢驗(yàn)后,句法分析不一致現(xiàn)象大量減少。查找和修正句法分析層面的不一致現(xiàn)象是一致性檢驗(yàn)的難點(diǎn),本文利用規(guī)則和統(tǒng)計方法,通過人工和自動機(jī)器相結(jié)合的策略,可以有效檢驗(yàn)此類不一致現(xiàn)象。采用本文的方法對阿里巴巴漢語句法樹庫進(jìn)行一致性校驗(yàn),結(jié)果表明一致性檢驗(yàn)的準(zhǔn)確率為782%,召回率為901%,本文給出的方法確實(shí)能夠使樹庫標(biāo)注的準(zhǔn)確率提高約3%。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 55
大?。?2.31(MB)
子文件數(shù):
-
簡介:語言是人類社會發(fā)展特有的產(chǎn)物,其中,書面語言是傳播知識和經(jīng)驗(yàn)的重要載體,而口語則是人與人交流的重要工具?,F(xiàn)實(shí)生活中,我們能夠快速的理解別人說的話,這看起來毫不費(fèi)力,但這過程中卻包含了復(fù)雜而又精細(xì)的認(rèn)知加工。目前印歐語系已有比較成熟的口語詞匯識別理論模型。但漢語是聲調(diào)語言,漢語音段信息、超音段信息和語境及詞頻的加工在口語詞匯識別中的功能也一直是備受關(guān)注的研究內(nèi)容。本研究采用眼動追蹤技術(shù),運(yùn)用視覺情境范式,通過兩個實(shí)驗(yàn)考查了漢語聽覺詞匯識別中語音信息的作用。實(shí)驗(yàn)中要求被試看視覺材料的同時聽句子。視覺材料包括四種競爭關(guān)系詞,這四種競爭詞與同一個目標(biāo)詞有四種對應(yīng)關(guān)系,以實(shí)驗(yàn)一為例,目標(biāo)詞為“和平”分別為首字音相似詞(如“合作”),尾字音相似詞(如“批評”),聲調(diào)相似詞(如“哲學(xué)”)及無關(guān)控制詞(如“武裝”)。目標(biāo)詞“和平”出現(xiàn)在高限制性句子當(dāng)中(如“白鴿代表著和平”),通過耳機(jī)呈現(xiàn)給被試,眼動儀自動記錄被試的眼運(yùn)動軌跡。實(shí)驗(yàn)二與實(shí)驗(yàn)一的區(qū)別為,實(shí)驗(yàn)二的聽覺句子是低限制性。選取首次注視時間,凝視時間,總閱讀時間,瞳孔直徑平均值等眼動指標(biāo)。實(shí)驗(yàn)一和實(shí)驗(yàn)二的結(jié)果1在首次注視時間上,各競爭詞的首次注視時間沒有差異,說明在目標(biāo)詞沒有出現(xiàn)之前,被試對視覺情境中各競爭詞的注視沒有明顯的偏好2在總閱讀時間上,高限制性條件下,尾字音相似競爭詞顯著大于無關(guān)控制詞,聲調(diào)相同競爭詞顯著大于無關(guān)控制詞在低限制句子條件下,首字音相同競爭詞顯著大于無關(guān)控制詞,尾字音相似競爭詞顯著大于無關(guān)控制詞,聲調(diào)相同競爭詞顯著大于無關(guān)控制詞。3在低限制性句子條件下出現(xiàn)詞頻效應(yīng),高限制性句子未發(fā)現(xiàn)詞頻效應(yīng)4實(shí)驗(yàn)結(jié)果表明,在高限制性語境和低限制性語境中,漢語聽覺詞匯識別符合TRACE模型。聲調(diào)信息和音段信息一起影響漢語雙字詞聽覺詞匯識別過程。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 43
大小: 1.82(MB)
子文件數(shù):
-
簡介:分類號UDC密皺金五暑系≯產(chǎn)哮碩士研究生學(xué)位論文目的論指導(dǎo)下記者招待會中漢語四字格口譯的顯化策略申請人學(xué)號培養(yǎng)單位學(xué)科專業(yè)研究方向指導(dǎo)教師完成日期王欣2120921西語學(xué)院翻譯碩士英語口譯英語口譯尚曉明教授2014年9月24日黑龍江大學(xué)碩士學(xué)位論文ABSTRACTTHEPRESSCONFERENCE,WHEREOFFICIALNEWSISISSUEDANDTHEPOLITICALSTANDISEXPOUNDED,HASALWAYSBEENFOCUSEDONBYTHEFOREIGNMEDIAANDAUDIENCEATTHEPRESSCONFERENCESOFNPCANDCPPCC,PREMIERWENJIABAOFREQUENTLYAPPLIESTHECHINESEFOURCHARACTERSTRUCTURE,THEUNIQUECHINESELANGUAGEFEATURINGSYMMETRICALSTRUCTURE,F(xiàn)ERTILEMEANINGSASWELLASVIVIDEXPRESSIONHOWEVERTHEINTERPRETATIONOFTHECHINESEFOURCHARACTERSTRUCTUREHASBROUGHTCHALLENGESTOINTERPRETERSACCORDINGTOTHESKOPOSTHEORYINTERPRETINGMETHODSAREDETERMINEDBYTHESKOPOSINORDERTOACHIEVETHEEXPECTEDCOMMUNICATIVEPURPOSE,INTERPRETERSSHOULDTAKEHEARERS’ACCEPTANCEASTHEJUDGINGCRITERIAANDCHOOSETHEINTERPRETINGSTRATEGYACCORDINGLYTHETHESISHASANALYZEDTHEAPPLICATIONOFEXPLIEITATIONSTRATEGYININTERPRETINGTHECHINESEFOURCHARACTERSTRUCTUREFROMTHEPERSPECTIVESOFBOTHFORMANDMEANINGONTHEBASISOFTHESKOPOSTHEORYANDTHECHARACTERISTICSOFTHECHINESEFOURCHARACTERSTRUCTURETHERESEARCHDATACOMESFROMTHEPRESSCONFERENCESOFNPCANDCPPCCTHETHESISAIMSATPROVIDINGHELPANDGUIDANCEFORINTERPRETERSININTERPRETINGTHECHINESEFOURCHARACTERSTRUCTUREINTHEPRACTICALWORKKEYWORDSTHEPRESSCONFERENCE;SKOPOSTHEORY;THECHINESEFOURCHARACTERSTRUCTURE;EXPLICITATIONSTRATEGYII
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 40
大小: 1.34(MB)
子文件數(shù):
-
簡介:北京郵電大學(xué)碩士學(xué)位論文漢語文語轉(zhuǎn)換系統(tǒng)關(guān)鍵技術(shù)的研究姓名蔡磊申請學(xué)位級別碩士專業(yè)模式識別與智能系統(tǒng)指導(dǎo)教師郭軍20050329STUDYONKEYTECHNOLOGISOFCHINESETEXTTOSPEECHTTSSYSTEMABSTRACTATEXTTOSPEECHTTSSYSTEMAUTOMATICALLYTRANSFORMSATEXTTOSPEECHUSINGSPEECHSYNTHESISTECHNOLOGIESINACOMPUTERTHISPAPERISARESULTOFTHEWORKOFIMPLEMENTINGACHINESETTSSYSTEMTHESYSTEMISBASEDONASMALLSPEECHCORPUSGENERALLYATTSSYSTEMCOMPRISES3MODULESTEXTANALYSIS,PROSODYPROCESSINGANDSPEECHSYNTHESISAMONGTHESE3MODULES,SPEECHSYNTHESISISTHEMOSTIMPORTANTANDITDECIDESTHETASKTHATTHEOTHERTWOWILLCOMPLETESINCETHEPITCHSYNCHRONOUSOVERLAPADDPSOLAALGORITHMESPECIALLYINTHETIMEDOMAINTDPSOLAHASBEENDEVELOPEDANDGREATLYIMPROVEDTHEQUALITYOFSYNTHESISSPEECHWEBUILDOURTTSSYSTEMBASEDONTDPSOLAIHAVEPARTICIPATEDTHEWOKOFIMPLEMENTINGEVERYPARTOFTHEWHOLEWORKFIRST,WEHAVELABELEDTHESPEECHCORPUS,TOGETTHELNFORMATIONSUCHASPITCH,TIMELENGTHANDTHEPARTOFSPEECHOFTHEWORDS,ETCWEDECIDEDTOSIMPLIFYTHETEXTANALYSISMODULE,SO1COMPLETETHEWORDSEGMENTATIONFUNCTIONUSINGTHEFORWARDMAXMATCHTECHNOLOGYBASEDONDICTIONARYATTHESAMETIMEIEXTRACTEDTHEPROSODYINFORMATIONOFPINYIN,WORDPOSITIONANDPARTOFSPEECHFORSUBSEQUENTUSEINNATURALSPEECH,TLLEPROSODYISVERYIMPORTANT,SOWEMUSTHAVESUCHLNFORMATIONTOSYNTHESISSPEECHWITHHIGHNATURALNESSINTHISPARTOFWORK,ICOMPLETETHEF0CONTOURPREDICTIONUSINGC45ALGORITHMINORDERTOLABELHUGESPEECHCORPUS,WEMUSTDEVELOPAFUNCTIONTOEXTRACTTHEINFORMATIONSAUTOMATICALLYIHAVESTUDIEDSEVERALALGORITHMSTODETECTTHEPITCH,IMPLEMENTEDANALGORITHMBASEONCEPSTRUMTHEORY,ANDDONESOMEWORK
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 54
大?。?2.33(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 54
大?。?3.1(MB)
子文件數(shù):
-
簡介:江西師范大學(xué)碩士學(xué)位論文漢語主題突出結(jié)構(gòu)對中介語的影響的研究姓名沈曉華申請學(xué)位級別碩士專業(yè)課程與教學(xué)論英語指導(dǎo)教師劉春燕20090501ABSTRACTTHEREAREMANYDIFFERENCESBETWEENCHINESEANDENGLISHTYPOLOGICALLYCHINESEISATOPICPROMINENTLANGUAGEWHILE’ENGLISHISASUBJECTPROMINENTLANGUAGERESEARCHSHOWSTWOCONTRADICTORYCLAIMSONTHEROLEOFTOPIC/SUBJECTPROMINENCETP/SPTYPOLOGYINSECONDLANGUAGEL2ACQUISITIONONECLAIMISTHATIRRESPECTIVEOFLEAMERS’FIRSTLANGUAGE,THEPROCESSOFL2ACQUISITIONISCHARACTERIZEDBYALLEARLYUNIVERSALTOPICPROMINENTSTAGEANDTHATTHETYPOLOGYOFTOPIC/SUBJECTPROMINENCEISNOTTRANSFERABLEANOTHERCLAIMISTHATLEARNERS’L1PLAYSAROLEINTHEIRL2LEARNINGANDTHATASTHEIRL2PROFICIENCYINCREASES,NATIVESPEAKERSOFTPLANGUAGESGRADUALLYINCREASETHEUSEOFSPFEATURESINTHEIRL2PRODUCTIONHOWEVERBOTHCLAIMSNEEDMOREEMPIRICALEVIDENCEFORFURTHERCONFIRMATIONBASEDONTHETYPOLOGICALDIFFERENCEANDCOMPARISONOFCHINESEANDENGLISH,THEPRESENTSTUDYINVESTIGATESTHEINFLUENCEOFCHINESETOPICPROMINENCECONTRUCTIONSTPCONTHEACQUISITIONOFENGLISH、ⅣITHTHEINSTRUMENTSOFTRANSLATIONTASKANDACCEPTABILITYJUDGMENTTHETRANSLATIONTASKINTENDSTOTESTTHEINFLUENCEOFTPCATPERFORMANCELEVELANDTHEACCEPTABILITYJUDGMENTFORCOMPETENCELEVEL60SUBJECTSOFENGLISHMAJORWEREDIVIDEDINTOTWOGROUPSACCORDINGTOTHEIRENGLISHPROFICIENCYLEVELTHEFRESHMANFORLOWLEVELANDTHETHIRDGRADESTUDENTSFORHIGHLEVELTHERESULTSWEREANALYZEDANDCALCULATEDINTERMSOFFOURTYPESOFTPCNOUNPHRASEASTOPIC,CLAUSEASTOPIC,VERBPHRASEASTOPICANDPREPOSITIONALPHRASEASTOPICTHREEMAJORFINDINGSWEREACHIEVEDFROMTHEPRESENTSTUDYFIRSTLYLEAMERS’INTERLANGUAGEISCHARACTERIZEDBYINTERFERENCEOFTPCOFTHEIRMOTHERTONGUECHINESESECONDLYITSHOWSTHEDEVELOPMENTOFTHEINTERLANGUAGEBECAUSEOFTHEFEATUREOFPERMEABILITYOFINTERLANGUAGE,GRADUALLYLEARNERS’INTERLANGUAGEBECOMESMORETARGETLIKESUBJECTPROMINENCEWITHTHEINCREASEOFSUBJECTS’ENGLISHII
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 73
大?。?2.34(MB)
子文件數(shù):