眾賞文庫(kù)
全部分類(lèi)
  • 抗擊疫情 >
    抗擊疫情
    病毒認(rèn)知 防護(hù)手冊(cè) 復(fù)工復(fù)產(chǎn) 應(yīng)急預(yù)案 防控方案 英雄事跡 院務(wù)工作
  • 成品畢設(shè) >
    成品畢設(shè)
    外文翻譯 畢業(yè)設(shè)計(jì) 畢業(yè)論文 開(kāi)題報(bào)告 文獻(xiàn)綜述 任務(wù)書(shū) 課程設(shè)計(jì) 相關(guān)資料 大學(xué)生活 期刊論文 實(shí)習(xí)報(bào)告
  • 項(xiàng)目策劃 >
    項(xiàng)目策劃
    土地準(zhǔn)備 規(guī)劃設(shè)計(jì) 開(kāi)工開(kāi)盤(pán) 項(xiàng)目綜合 竣工移交 售后移交 智慧方案 安全專(zhuān)項(xiàng) 環(huán)境影響評(píng)估報(bào)告 可行性研究報(bào)告 項(xiàng)目建議書(shū) 商業(yè)計(jì)劃書(shū) 危害評(píng)估防治 招投標(biāo)文件
  • 專(zhuān)業(yè)資料 >
    專(zhuān)業(yè)資料
    人文法律 環(huán)境安全 食品科學(xué) 基礎(chǔ)建設(shè) 能源化工 農(nóng)林牧畜 綜合待分類(lèi) 教育經(jīng)驗(yàn) 行政人力 企業(yè)管理 醫(yī)學(xué)衛(wèi)生 IT技術(shù) 土木建筑 考研專(zhuān)題 財(cái)會(huì)稅務(wù) 公路隧道 紡織服裝
  • 共享辦公 >
    共享辦公
    總結(jié)匯報(bào) 調(diào)研報(bào)告 工作計(jì)劃 述職報(bào)告 講話(huà)發(fā)言 心得體會(huì) 思想?yún)R報(bào) 事務(wù)文書(shū) 合同協(xié)議 活動(dòng)策劃 代理加盟 技術(shù)服務(wù) 求職簡(jiǎn)歷 辦公軟件 ppt模板 表格模板 融資協(xié)議 發(fā)言演講 黨團(tuán)工作 民主生活
  • 學(xué)術(shù)文檔 >
    學(xué)術(shù)文檔
    自然科學(xué) 生物科學(xué) 天文科學(xué) 醫(yī)學(xué)衛(wèi)生 工業(yè)技術(shù) 航空、航天 環(huán)境科學(xué)、安全科學(xué) 軍事 政學(xué) 文化、科學(xué)、教育、 交通運(yùn)輸 經(jīng)濟(jì) 語(yǔ)言、文字 文學(xué) 農(nóng)業(yè)科學(xué) 社會(huì)科學(xué)總論 藝術(shù) 歷史、地理 哲學(xué) 數(shù)理科學(xué)和化學(xué) 綜合性圖書(shū) 哲學(xué)宗教
  • 經(jīng)營(yíng)營(yíng)銷(xiāo) >
    經(jīng)營(yíng)營(yíng)銷(xiāo)
    綜合文檔 經(jīng)濟(jì)財(cái)稅 人力資源 運(yùn)營(yíng)管理 企業(yè)管理 內(nèi)控風(fēng)控 地產(chǎn)策劃
  • 教學(xué)課件 >
    教學(xué)課件
    幼兒教育 小學(xué)教育 初中教育 高中教育 職業(yè)教育 成人教育 高等教育 考研資源 試題真題 作業(yè)習(xí)題 課后答案 綜合教學(xué)
  • 土木建筑 >
    土木建筑
    專(zhuān)項(xiàng)施工 應(yīng)急預(yù)案 建筑規(guī)范 工藝方案 技術(shù)交底 施工表格 圖片圖集
  • 課程導(dǎo)學(xué) >
    課程導(dǎo)學(xué)
    醫(yī)學(xué)綜合 中醫(yī)養(yǎng)生 醫(yī)學(xué)研究 身心發(fā)展 醫(yī)學(xué)試題 影像醫(yī)學(xué) 醫(yī)院辦公 外科醫(yī)學(xué) 老年醫(yī)學(xué) 內(nèi)科醫(yī)學(xué) 婦產(chǎn)科 神經(jīng)科 醫(yī)學(xué)課件 眼鼻喉科 皮膚病科 腫瘤科 兒科醫(yī)學(xué) 康復(fù)醫(yī)學(xué) 全科醫(yī)學(xué) 護(hù)理學(xué)科 針灸學(xué)科 重癥學(xué)科 病毒學(xué)科 獸醫(yī) 藥學(xué)
  • 漢語(yǔ) (共10000 份)
  • 用時(shí):10ms
    資源分類(lèi):
    全部 抗擊疫情 成品畢設(shè) 項(xiàng)目策劃 專(zhuān)業(yè)資料 共享辦公 學(xué)術(shù)文檔 經(jīng)營(yíng)營(yíng)銷(xiāo) 教學(xué)課件 土木建筑 課程導(dǎo)學(xué)
    二級(jí)分類(lèi):
    全部 自然科學(xué) 生物科學(xué) 天文科學(xué) 醫(yī)學(xué)衛(wèi)生 工業(yè)技術(shù) 航空、航天 環(huán)境科學(xué)、安全科學(xué) 軍事 政學(xué) 文化、科學(xué)、教育、體育 交通運(yùn)輸 經(jīng)濟(jì) 語(yǔ)言、文字 文學(xué) 農(nóng)業(yè)科學(xué) 社會(huì)科學(xué)總論 藝術(shù) 歷史、地理 哲學(xué) 數(shù)理科學(xué)和化學(xué) 綜合性圖書(shū) 哲學(xué)宗教
    三級(jí)分類(lèi):
    全部 生物科學(xué) 文學(xué) 自然科學(xué)總論 歷史、地理 軍事 文化、科學(xué)、教育、體育 農(nóng)業(yè)科學(xué) 工業(yè)技術(shù) 交通運(yùn)輸 數(shù)理科學(xué)和化學(xué) 政學(xué) 醫(yī)學(xué)、衛(wèi)生 天文學(xué)、地球科學(xué) 航空、航天 經(jīng)濟(jì) 環(huán)境科學(xué)、安全科學(xué) 社會(huì)科學(xué)總論 藝術(shù) 哲學(xué)、宗教 語(yǔ)言、文字
    四級(jí)分類(lèi):
    全部 漢語(yǔ) 常用外國(guó)語(yǔ) 語(yǔ)言學(xué)
    上傳類(lèi)型:
    全部 互聯(lián)網(wǎng)共享 作者原創(chuàng) 獨(dú)家資料
    資源格式:
    不限 doc ppt pdf 圖片 flash 視頻 音頻 壓縮包
    上架時(shí)間:
    不限 三天內(nèi) 一周內(nèi) 一個(gè)月內(nèi) 一年內(nèi)
    特色搜索:
    不限 文件包巨大 瀏覽量超巨 購(gòu)買(mǎi)量排行 子文件超多好評(píng)如潮
    • 簡(jiǎn)介:漢語(yǔ)語(yǔ)音合成是近年來(lái)語(yǔ)音處理領(lǐng)域內(nèi)比較熱門(mén)的研究方向是當(dāng)今人工智能領(lǐng)域的研究熱點(diǎn)目前它越來(lái)越廣泛地應(yīng)用于社會(huì)生活的各個(gè)方面提高了人機(jī)交互性發(fā)揮了很好的社會(huì)效益該論文首先簡(jiǎn)要回顧了語(yǔ)音合成的發(fā)展歷史指出了將來(lái)語(yǔ)音合成的發(fā)展方向以及漢語(yǔ)語(yǔ)音合成的意義等然后介紹了語(yǔ)音信號(hào)處理的基礎(chǔ)知識(shí)包括現(xiàn)代語(yǔ)音學(xué)和語(yǔ)音信號(hào)產(chǎn)生的數(shù)學(xué)模型并且介紹了現(xiàn)在出現(xiàn)的各種語(yǔ)音合成技術(shù)和漢語(yǔ)語(yǔ)音的一些特點(diǎn)最后著重討論了語(yǔ)音合成的理論探索和利用線(xiàn)性預(yù)測(cè)合成LPC技術(shù)具體實(shí)現(xiàn)漢語(yǔ)語(yǔ)音合成在該文中作者對(duì)語(yǔ)音信號(hào)處理的過(guò)程和方法進(jìn)行了一些研究利用語(yǔ)音信號(hào)產(chǎn)生的物理模型用LPC技術(shù)對(duì)這個(gè)物理模型加以抽象得到語(yǔ)音信號(hào)產(chǎn)生的數(shù)學(xué)模型由一組周期信號(hào)或者高斯白噪聲激勵(lì)一個(gè)全極點(diǎn)濾波器而得到語(yǔ)音信號(hào)的數(shù)學(xué)模型同時(shí)作者利用LPC技術(shù)建立了一個(gè)線(xiàn)性預(yù)測(cè)模型并用自相關(guān)法求解獲得預(yù)測(cè)系數(shù)LPC系數(shù)和基音周期的檢測(cè)最后實(shí)現(xiàn)了基于線(xiàn)性預(yù)測(cè)LPC的漢語(yǔ)語(yǔ)音合成
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 72
      5人已閱讀
      ( 4 星級(jí))
    • 下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 95
      2人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:近年來(lái),隨著語(yǔ)音識(shí)別理論研究的深入和數(shù)字信號(hào)處理軟、硬件技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)的研究越來(lái)越受到人們的關(guān)注。另外,嵌入式技術(shù)的發(fā)展,使嵌入式語(yǔ)音識(shí)別技術(shù)成為語(yǔ)音識(shí)別領(lǐng)域發(fā)展的重要方向。本文簡(jiǎn)要介紹了語(yǔ)音識(shí)別技術(shù)的基本知識(shí),給出了語(yǔ)音識(shí)別的系統(tǒng)模型,對(duì)模型中涉及的算法進(jìn)行了重點(diǎn)的研究和實(shí)現(xiàn)。另外,論文對(duì)嵌入式語(yǔ)音識(shí)別系統(tǒng)也做了相應(yīng)的研究和實(shí)現(xiàn),并對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展方向提出了展望。語(yǔ)音識(shí)別算法的研究與實(shí)現(xiàn)是本文的重點(diǎn)。根據(jù)語(yǔ)音識(shí)別系統(tǒng)的基本模型,論文對(duì)語(yǔ)音信號(hào)的預(yù)處理、特征提取和識(shí)別算法做了深入的研究,并在PC機(jī)上用MATLAB語(yǔ)言、動(dòng)態(tài)時(shí)間規(guī)整識(shí)別算法設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)特定人、小詞匯量、孤立詞語(yǔ)音識(shí)別系統(tǒng)。另外,論文對(duì)PC機(jī)上的語(yǔ)音識(shí)別系統(tǒng)用C語(yǔ)言進(jìn)行了實(shí)現(xiàn),并將新系統(tǒng)應(yīng)用在XSBASE開(kāi)發(fā)平臺(tái)上,進(jìn)行了嵌入式語(yǔ)音識(shí)別技術(shù)的研究。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 76
      6人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:語(yǔ)言文字是信息的主要載體,現(xiàn)代社會(huì)對(duì)語(yǔ)言文字處理的要求越來(lái)越高。中文信息處理技術(shù)也隨著計(jì)算機(jī)和因特網(wǎng)普及應(yīng)用,面臨著新的更大的挑戰(zhàn)和機(jī)遇,語(yǔ)言文本處理的研究成為其中基礎(chǔ)而關(guān)鍵的問(wèn)題之一。全文相似度計(jì)算技術(shù)在自動(dòng)文摘、知識(shí)挖掘、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)、信息檢索及文檔復(fù)制檢測(cè)等領(lǐng)域有著廣泛實(shí)際的應(yīng)用。漢語(yǔ)全文相似度的計(jì)算包含詞語(yǔ)的切分、詞語(yǔ)語(yǔ)義及概念的研究、短語(yǔ)和句型的研究、語(yǔ)料庫(kù)的建設(shè)、語(yǔ)言規(guī)則的研究等方面的內(nèi)容。由于漢語(yǔ)本身的復(fù)雜性和進(jìn)化性,漢語(yǔ)全文相似度的計(jì)算仍處在應(yīng)用起步階段,鑒于信息處理在國(guó)家信息化建設(shè)中的重要地位,對(duì)全文相似度計(jì)算進(jìn)行深入的研究是非常必要的。針對(duì)目前全文相似度計(jì)算存在的問(wèn)題,將基于統(tǒng)計(jì)方法和語(yǔ)言規(guī)則方法相融合來(lái)處理專(zhuān)門(mén)領(lǐng)域的問(wèn)題是一個(gè)非常重要的趨勢(shì),本文做了以下的研究和探索1在文本句子層面,總結(jié)了國(guó)內(nèi)外句子相似度計(jì)算方法的研究成果,分析了存在的問(wèn)題和不足,在基于知網(wǎng)計(jì)算詞語(yǔ)相似度的基礎(chǔ)上,給出了句子相似度計(jì)算綜合公式,研究了否定副詞在句子相似度計(jì)算中的作用,設(shè)計(jì)了一種含有否定副詞的句子相似度計(jì)算方法,通過(guò)實(shí)驗(yàn)證明,新算法在句子相似度計(jì)算中具有較好的效果。2在文章層面,對(duì)全文相似度計(jì)算做了全面的分析和研究,總結(jié)了幾種主要的全文相似度計(jì)算方法的優(yōu)缺點(diǎn),重點(diǎn)研究了基于向量空間模型的全文相似度計(jì)算方法,比較了幾種常見(jiàn)的特征選擇算法效果和應(yīng)用范圍。3深入研究了具有一定結(jié)構(gòu)形式的文章間相似度計(jì)算問(wèn)題,設(shè)計(jì)了一種文章結(jié)構(gòu)層次模型,將文章按照結(jié)構(gòu)劃分為句子、文章塊和短文本三個(gè)層次。在此模型基礎(chǔ)上,提出了一種基于文章結(jié)構(gòu)層次的相似度算法,融合了句子、文章塊和短文本相似度計(jì)算方法,并將其應(yīng)用在全文相似度對(duì)比組件中。該方法結(jié)合了自然語(yǔ)言處理中基于統(tǒng)計(jì)方法和語(yǔ)言規(guī)則方法的優(yōu)點(diǎn),提高了計(jì)算結(jié)果的質(zhì)量,具有較高的理論和應(yīng)用價(jià)值。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 79
      7人已閱讀
      ( 4 星級(jí))
    • 下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 68
      4人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:目前,漢語(yǔ)連續(xù)語(yǔ)音識(shí)別在純凈語(yǔ)音環(huán)境下,已經(jīng)取得了較好的識(shí)別效果。但在自然環(huán)境下,由于各種噪聲的影響,識(shí)別率依然很低,還不能滿(mǎn)足實(shí)際場(chǎng)合的應(yīng)用要求。因此帶噪環(huán)境的連續(xù)語(yǔ)音識(shí)別一直是當(dāng)前語(yǔ)音信號(hào)研究的熱點(diǎn)和難點(diǎn)。HMM模型是連續(xù)語(yǔ)音識(shí)別中應(yīng)用最廣泛的模型之一,但模型的訓(xùn)練往往是在安靜的實(shí)驗(yàn)室環(huán)境下完成的,因此訓(xùn)練模型無(wú)法有效描述自然環(huán)境下實(shí)際語(yǔ)音信號(hào)的特點(diǎn)。噪音干擾使端點(diǎn)檢測(cè)的準(zhǔn)確性也大為降低,系統(tǒng)識(shí)別率也隨之下降。除此之外,漢語(yǔ)連續(xù)語(yǔ)音識(shí)別中識(shí)別基元的選取,模型的上下文相關(guān),都對(duì)識(shí)別率有較大的影響。為了提高帶噪環(huán)境下語(yǔ)音識(shí)別系統(tǒng)的性能,本文根據(jù)連續(xù)語(yǔ)音識(shí)別的基本原理,針對(duì)帶噪環(huán)境的特點(diǎn),對(duì)語(yǔ)音識(shí)別算法進(jìn)行了一些研究,具體工作如下1研究了一種改進(jìn)的基于譜減的語(yǔ)音增強(qiáng)算法,該算法解決了基本譜減法的“音樂(lè)噪聲“問(wèn)題;采用基于自適應(yīng)子帶譜熵的端點(diǎn)檢測(cè)算法,并將它與改進(jìn)的譜減語(yǔ)音增強(qiáng)相結(jié)合,進(jìn)一步提高了帶噪環(huán)境下語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率。2介紹了一些常用語(yǔ)音特征的提取算法如反映人類(lèi)聲道信息的LPCC,具有抗噪性能的MFCC;提出了一種基于線(xiàn)性預(yù)測(cè)與歸一化互相關(guān)的基音特征提取算法,該算法提高了帶噪環(huán)境基音檢測(cè)的性能。3討論了HMM模型的基本原理,并對(duì)HMM的三個(gè)基本問(wèn)題前后向算法,VITERBI算法,BAUMWEICH算法做了詳細(xì)介紹;同時(shí)對(duì)HMM應(yīng)用中的HMM初始模型選取、溢出問(wèn)題以及模型的合并也做了深入的探究。4針對(duì)漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)中聲學(xué)模型的訓(xùn)練,發(fā)音協(xié)同等問(wèn)題,對(duì)聲學(xué)模型中識(shí)別基元選取、聲學(xué)模型的嵌入式訓(xùn)練以及上下文相關(guān)的三音素模型等做了進(jìn)一步的研究;最后,采用HTK工具箱進(jìn)行了一系列的實(shí)驗(yàn)分析。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 68
      5人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:本文根據(jù)漢語(yǔ)自身的特點(diǎn),及不同漢語(yǔ)語(yǔ)塊具有的不同敏感特征,從多AGENT理論入手,進(jìn)行了基于多AGENT策略的漢語(yǔ)語(yǔ)塊模型的探索。本文研究從以下幾個(gè)方面展開(kāi)1、對(duì)比分析了四種傳統(tǒng)主流語(yǔ)塊識(shí)別模型在漢語(yǔ)識(shí)別中的性能,從理論和實(shí)驗(yàn)結(jié)果兩方面研究了這些模型的特點(diǎn),揭示了造成這些模型在識(shí)別英語(yǔ)和漢語(yǔ)時(shí)性能差異的原因。明確了當(dāng)前漢語(yǔ)語(yǔ)塊識(shí)別的主要問(wèn)題。2針對(duì)漢語(yǔ)語(yǔ)塊識(shí)別特征靈活和語(yǔ)料規(guī)模較小的現(xiàn)狀,提出了一種基于多AGENT策略的漢語(yǔ)語(yǔ)塊識(shí)別模型。此外,本文還對(duì)漢語(yǔ)語(yǔ)塊識(shí)別中關(guān)鍵的名詞語(yǔ)塊的識(shí)別提出了詞性串規(guī)則結(jié)合邊界統(tǒng)計(jì)的算法,最終得到了較好的識(shí)別結(jié)果。3在利用各種不同的敏感特征識(shí)別語(yǔ)塊時(shí),對(duì)最優(yōu)規(guī)則集進(jìn)行總結(jié),并規(guī)劃解綜合的結(jié)構(gòu)。最后,綜合運(yùn)用本文所研究的各種方法,實(shí)現(xiàn)了一個(gè)支持基于多AGENT策略的漢語(yǔ)語(yǔ)塊識(shí)別系統(tǒng)。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 59
      5人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:高自然度的語(yǔ)音合成是人機(jī)交互領(lǐng)域的一個(gè)重要研究課題。為提高合成語(yǔ)音的自然度,需要知道準(zhǔn)確的合成文本的韻律結(jié)構(gòu)。為此,論文分析了漢語(yǔ)文本的語(yǔ)法結(jié)構(gòu)與韻律結(jié)構(gòu)之間的關(guān)系,重點(diǎn)研究了韻律詞和韻律短語(yǔ)的預(yù)測(cè)。論文的研究結(jié)果對(duì)于揭示文本與語(yǔ)音之間的關(guān)系、提高合成語(yǔ)音的自然度具有重要的理論意義和應(yīng)用價(jià)值。論文的主要研究成果和創(chuàng)新點(diǎn)如下1建立了一個(gè)大規(guī)模的文本語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)包含20000句文本語(yǔ)料,標(biāo)注了語(yǔ)法信息和韻律信息。韻律信息在語(yǔ)言學(xué)專(zhuān)家的指導(dǎo)下手工標(biāo)注。完成的語(yǔ)料庫(kù)經(jīng)過(guò)了語(yǔ)言學(xué)專(zhuān)家的抽查,并與語(yǔ)言學(xué)專(zhuān)家標(biāo)注結(jié)果進(jìn)行了對(duì)比。結(jié)果表明,手工標(biāo)注的韻律詞和韻律短語(yǔ)的綜合參數(shù)得分分別達(dá)到了98%和85%,可用于韻律結(jié)構(gòu)預(yù)測(cè)的研究中。2提出了一種以相鄰語(yǔ)法詞詞長(zhǎng)和詞性為特征,利用TBL算法進(jìn)行韻律詞預(yù)測(cè)的方法。通過(guò)對(duì)手工標(biāo)注過(guò)的語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)相鄰語(yǔ)法詞長(zhǎng)和相鄰語(yǔ)法詞詞性是從語(yǔ)法詞映射到韻律詞的主要特征?;谶@一特征,利用TBL轉(zhuǎn)換學(xué)習(xí)算法進(jìn)行了韻律詞的預(yù)測(cè)。結(jié)果表明,該方法在測(cè)試集上分別得到了975%的精確率、召回率以及綜合參數(shù),優(yōu)于現(xiàn)有的研究結(jié)果。3提出了一種新的用于韻律結(jié)構(gòu)預(yù)測(cè)的語(yǔ)法結(jié)構(gòu)描述特征鄰接度(ADJACENTDEGREE,AD),利用鄰接度描述了語(yǔ)法結(jié)構(gòu)和韻律結(jié)構(gòu)之間的關(guān)系?;卩徑佣冗@一新特征,利用TBL算法進(jìn)行了韻律短語(yǔ)的預(yù)測(cè)。測(cè)試集上的結(jié)果表明,該方法在韻律短語(yǔ)的預(yù)測(cè)上,精確率達(dá)到了752%,召回率達(dá)到了771%,綜合參數(shù)達(dá)到了761%。4提出了一種基于鄰接度的韻律結(jié)構(gòu)描述方法,該方法結(jié)合了基于鄰接度的語(yǔ)法結(jié)構(gòu)描述方法和原有的三層韻律結(jié)構(gòu)的描述方法,并從韻律停頓邊界長(zhǎng)度與鄰接度的關(guān)系、韻律停頓邊界位置與語(yǔ)速的相關(guān)性、韻律停頓與重音的關(guān)系三個(gè)方面對(duì)原有的韻律結(jié)構(gòu)描述方法進(jìn)行了擴(kuò)充。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 44
      6人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:句法分析是自然語(yǔ)言處理基礎(chǔ)研究中的一個(gè)關(guān)鍵技術(shù)之一,是銜接詞法分析與語(yǔ)義分析的橋梁。本文的目的是從漢語(yǔ)自身特點(diǎn)出發(fā),以現(xiàn)有的句法分析理論和方法為指導(dǎo),研究和開(kāi)發(fā)適合漢語(yǔ)的句法分析技術(shù)。句法分析技術(shù)指的是依據(jù)語(yǔ)法規(guī)則來(lái)確定句子結(jié)構(gòu)的分析方法。依存語(yǔ)法是當(dāng)今句法學(xué)研究的前沿和熱點(diǎn)問(wèn)題之一,本文的句法分析采用的語(yǔ)法體系就是依存語(yǔ)法,采用的句法分析技術(shù)是決策式依存句法分析方法。NIVER算法作為決策式句法分析方法已經(jīng)成功的應(yīng)用于英文的依存句法分析,因?yàn)橛⑽暮椭形脑诰浞ㄌ攸c(diǎn)上具有一定的相似性,所以本文采用NIVRE算法進(jìn)行漢語(yǔ)依存句法分析。本文首先對(duì)現(xiàn)有的一些依存句法分析方法從處理策略,算法的時(shí)間復(fù)雜度等方面進(jìn)行了綜合分析和比較,其中詳細(xì)研究了NIVRE算法,然后針對(duì)該算法,本文提出了進(jìn)一步的改進(jìn)。NIVRE算法在分析長(zhǎng)距離右依存時(shí)會(huì)出現(xiàn)錯(cuò)誤,在漢語(yǔ)中,只有動(dòng)詞和介詞跟他們的依存者具有右依存關(guān)系,所以錯(cuò)誤主要發(fā)生在動(dòng)詞和介詞的依存分析上。本文依據(jù)漢語(yǔ)介詞短語(yǔ)的特點(diǎn),提出了一種改進(jìn)的NIVRE算法,讓除了介詞外的介詞短語(yǔ)部分先進(jìn)行依存分析,最后再是跟介詞之間的依存分析,來(lái)減少介詞的長(zhǎng)距離依存問(wèn)題,提高漢語(yǔ)依存句法分析的正確率。實(shí)驗(yàn)數(shù)據(jù)采用含有1萬(wàn)個(gè)句子的哈爾濱工業(yè)大學(xué)的依存關(guān)系語(yǔ)料庫(kù),采用基于支持向量機(jī)SVM的句法分析器MALTPARSER作為本文算法的實(shí)現(xiàn)工具。結(jié)果表明,使用改進(jìn)后的NIVER算法進(jìn)行漢語(yǔ)依存句法分析,正確率提高了172%,對(duì)介詞的長(zhǎng)距離依存取得了比較好的分析結(jié)果。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 56
      7人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的一個(gè)非常重要的手段。但是隨著信息爆炸似的增長(zhǎng),人們很難在較短的時(shí)間內(nèi)找到自己所需要的信息,這也就是信息過(guò)載的問(wèn)題。文本分類(lèi)是當(dāng)前數(shù)據(jù)挖掘的一個(gè)重要研究方向。一些應(yīng)用方面的工作,如對(duì)電子商務(wù)的評(píng)價(jià),民意調(diào)查的結(jié)果等等都需要對(duì)文本進(jìn)行挖掘。然而,從海量的信息中人工查找具有意見(jiàn)性的主觀性文本是不現(xiàn)實(shí)的。在本文中,我們提出一個(gè)方法來(lái)針對(duì)主客觀文本進(jìn)行分類(lèi)。通過(guò)分析主客觀文本之間存在的差別來(lái)抽取能夠區(qū)別它們的一些特征。最終應(yīng)用樸素貝葉斯和支持向量機(jī)模型,用特征項(xiàng)的不同組合對(duì)其進(jìn)行主客觀文本分類(lèi),力爭(zhēng)達(dá)到最優(yōu)效果。隨著即時(shí)通信軟件(INSTANTMESSAGING)的普及(如MSN,QQ等),一種非規(guī)范語(yǔ)言就廣泛出現(xiàn)于其中。在這些環(huán)境中使用的特殊語(yǔ)言被稱(chēng)為為網(wǎng)絡(luò)非規(guī)范語(yǔ)言(WKINFMALLANGUAGE,NIL)表達(dá)。例如在網(wǎng)絡(luò)聊天中常用“8錯(cuò)”取代“不錯(cuò)”,用“稀飯”表示“喜歡”等等。在傳統(tǒng)的文本挖掘中,這些信息都被視為噪音。但事實(shí)上,包含這些非規(guī)范詞語(yǔ)的句子經(jīng)常會(huì)存在用戶(hù)的表達(dá)個(gè)人意愿的信息。舉個(gè)例子,“這款車(chē)型還是受廣大車(chē)迷稀飯的”可以看出,在這個(gè)句子里面,“稀飯”表達(dá)“喜歡”。通過(guò)這句話(huà)持有者表達(dá)了自己對(duì)某一車(chē)型的觀點(diǎn)和看法。在本文工作中,文本預(yù)處理研究就是對(duì)這些主觀性的文本進(jìn)行正規(guī)化處理。首先通過(guò)編寫(xiě)特定的網(wǎng)絡(luò)蜘蛛程序收集某論壇上一定時(shí)間段內(nèi)的網(wǎng)頁(yè)。對(duì)網(wǎng)頁(yè)進(jìn)行人工篩選,構(gòu)建非規(guī)范語(yǔ)言詞典。最終將互聯(lián)網(wǎng)上常見(jiàn)的非規(guī)范詞語(yǔ)劃分為六個(gè)大類(lèi)??紤]到處理成本的問(wèn)題,將這六個(gè)大類(lèi)別劃分成兩個(gè)大類(lèi)典型非規(guī)范語(yǔ)言和歧義非規(guī)范語(yǔ)言。對(duì)于典型非規(guī)范語(yǔ)言,采用基于序列覆蓋算法的模式匹配方法對(duì)其進(jìn)行正規(guī)化處理。而對(duì)于歧義非規(guī)范語(yǔ)言,由于這種類(lèi)別很難從字詞層面上判斷出是否是非規(guī)范詞。采用基于特征抽取的分類(lèi)方法將其識(shí)別。最終都達(dá)到正規(guī)化的目的。得出基本正規(guī)的主觀性文本。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 69
      40人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著計(jì)算機(jī)和語(yǔ)音識(shí)別技術(shù)的發(fā)展使?jié)h語(yǔ)普通話(huà)水平測(cè)試系統(tǒng)的實(shí)現(xiàn)成為可能。漢語(yǔ)普通水平測(cè)試系統(tǒng)旨在利用人機(jī)交互優(yōu)勢(shì)解決現(xiàn)今普通話(huà)人工測(cè)試的一些缺點(diǎn)。實(shí)驗(yàn)證明利用計(jì)算機(jī)進(jìn)行普通話(huà)測(cè)試有利于統(tǒng)一測(cè)試的不足推廣普通話(huà)。主要是在對(duì)現(xiàn)有語(yǔ)音識(shí)別技術(shù)進(jìn)行研究尤其是在對(duì)漢語(yǔ)語(yǔ)音識(shí)別技術(shù)研究的基礎(chǔ)上完成普通話(huà)水平測(cè)試系統(tǒng)中雙音節(jié)詞測(cè)試的設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng)涉及到語(yǔ)音信號(hào)的采集、預(yù)處理、特征提取、模型的訓(xùn)練和匹配以及普通話(huà)水平的評(píng)價(jià)方式等。主要研究工作和取得的成果如下分析一般語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)及所用到的各種理論技術(shù)討論語(yǔ)音識(shí)別系統(tǒng)中涉及到的基本概念及原理包括語(yǔ)音識(shí)別單元的選取、預(yù)處理、特征參數(shù)的提取、模式匹配及模型訓(xùn)練等技術(shù)。對(duì)語(yǔ)音識(shí)別中各種特征參數(shù)的提取方法進(jìn)行了系統(tǒng)的研究特別是對(duì)反映語(yǔ)音倒譜特征的LPCC和MFCC的提取方法進(jìn)行了深入的探討和分析并對(duì)它們進(jìn)行了仿真實(shí)驗(yàn)。深入地探討了連續(xù)概率密度隱馬爾可夫模型CDHMM的基本原理和識(shí)別算法的理論基礎(chǔ)和處理方法且根據(jù)實(shí)際需要分析得出本系統(tǒng)所用的數(shù)學(xué)模型的理論根據(jù)和可實(shí)現(xiàn)性并給出了算法的具體實(shí)現(xiàn)步驟。分析已有類(lèi)似系統(tǒng)的評(píng)分方式結(jié)合目前普通話(huà)測(cè)試的評(píng)分模式改進(jìn)得出適合本系統(tǒng)的評(píng)價(jià)方式。在MICROSOFTVISUALSTUDIO2008和MATLAB65平臺(tái)上利用VC和MATLAB實(shí)現(xiàn)了漢語(yǔ)普通話(huà)中雙音節(jié)詞水平測(cè)試系統(tǒng)并對(duì)其進(jìn)行了測(cè)試。本系統(tǒng)主要解決的是雙音節(jié)詞的測(cè)試。通過(guò)實(shí)驗(yàn)測(cè)試證明了此系統(tǒng)能夠完成預(yù)期功能并通過(guò)比較同一個(gè)人的兩次測(cè)試結(jié)果以及不同人的測(cè)試結(jié)果來(lái)判定系統(tǒng)的效果。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 68
      6人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:語(yǔ)料庫(kù)語(yǔ)言學(xué)是當(dāng)代計(jì)算學(xué)語(yǔ)言學(xué)中經(jīng)驗(yàn)主義方法論取得顯著成效從而在計(jì)算語(yǔ)言學(xué)領(lǐng)域占有一定的優(yōu)勢(shì)地位的新學(xué)科方向。語(yǔ)料庫(kù)不僅是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)性資源,并且由此產(chǎn)生很多不同于理性主義方法的理論和方法。因此語(yǔ)料庫(kù)建設(shè)和研究就成為計(jì)算語(yǔ)言學(xué)的奠基工作。實(shí)踐證明一個(gè)好的語(yǔ)料庫(kù)應(yīng)該具有可重用性和可擴(kuò)展性,而語(yǔ)料標(biāo)注的標(biāo)準(zhǔn)化對(duì)于語(yǔ)料庫(kù)建設(shè)具有十分重要的意義。語(yǔ)料標(biāo)注跨越語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué),需要對(duì)標(biāo)注的內(nèi)容即標(biāo)注哪些信息、目的即為什么要標(biāo)注、手段即怎樣實(shí)現(xiàn)標(biāo)注等問(wèn)題進(jìn)行逐一的回答,而語(yǔ)料標(biāo)注的標(biāo)準(zhǔn)化也需要在這些問(wèn)題上有一個(gè)明確的答案之后才得以進(jìn)行。但是目前中文語(yǔ)料標(biāo)注的工作主要集中在標(biāo)注內(nèi)容的研究上,更多地從語(yǔ)言學(xué)的角度研究漢語(yǔ)詞性標(biāo)注和切分的問(wèn)題,對(duì)于語(yǔ)料標(biāo)注的手段問(wèn)題特別是編碼格式的問(wèn)題很少涉及,這樣也就達(dá)不到語(yǔ)料的標(biāo)準(zhǔn)化。XML作為網(wǎng)絡(luò)間數(shù)據(jù)交換的標(biāo)準(zhǔn)語(yǔ)言在許多垂直行業(yè)特別是電子商務(wù)中得到了廣泛運(yùn)用,同時(shí)目前在語(yǔ)料標(biāo)注領(lǐng)域也出現(xiàn)了將XML作為標(biāo)注的標(biāo)記語(yǔ)言的趨勢(shì)。本文對(duì)漢語(yǔ)語(yǔ)料標(biāo)注的問(wèn)題進(jìn)行了研究,主要包括1,比較了國(guó)內(nèi)外語(yǔ)料標(biāo)注的理論研究和工程項(xiàng)目,指出了國(guó)內(nèi)語(yǔ)料標(biāo)注研究的兩大不足,即對(duì)語(yǔ)料標(biāo)注的編碼格式的關(guān)注程度不夠;對(duì)于標(biāo)注更多集中在切分標(biāo)注層次上,而沒(méi)有一個(gè)分層體系下的標(biāo)注研究2,提出語(yǔ)料標(biāo)注應(yīng)該著眼于語(yǔ)料的相互交換,而不是語(yǔ)料的本地處理3,基于上述的認(rèn)識(shí)明確提出了標(biāo)注語(yǔ)義和標(biāo)注表示的區(qū)分,該劃分具有十分重要的意義,該劃分廓清了語(yǔ)料標(biāo)注領(lǐng)域中的認(rèn)識(shí)誤區(qū),將語(yǔ)料標(biāo)注問(wèn)題的研究分成兩個(gè)相對(duì)獨(dú)立的部分,從而可以相對(duì)獨(dú)立地發(fā)展關(guān)于標(biāo)注語(yǔ)義和標(biāo)注表示地研究。并將標(biāo)注表示的問(wèn)題歸結(jié)為一系列對(duì)標(biāo)注表示的要求,這些要求需要有一個(gè)分層次的語(yǔ)料標(biāo)注模型。4,目前國(guó)內(nèi)還沒(méi)有出現(xiàn)關(guān)于語(yǔ)料標(biāo)注抽象數(shù)據(jù)模型研究的資料,本文則給出了一個(gè)基于集合論和圖論的形式化描述分層語(yǔ)料標(biāo)注模型MCAMMULTILEVELCPUSANNOTATIONMODEL,并且在定義該模型的同時(shí)將該抽象模型和具體的語(yǔ)料標(biāo)注過(guò)程進(jìn)行了對(duì)應(yīng),分析了分層標(biāo)注模型的優(yōu)點(diǎn),并且給出了MCAM模型的XML表示,從而說(shuō)明了該抽象模型現(xiàn)實(shí)的可行性。5,最后則根據(jù)工作的實(shí)際,給出了一個(gè)MCAM模型下切分標(biāo)注的XML規(guī)范表示,并編寫(xiě)了程序?qū)崿F(xiàn)語(yǔ)料的內(nèi)部格式到XML格式之間轉(zhuǎn)化的程序6,本文的研究還包括對(duì)語(yǔ)法信息詞典的XML改造。在分析了語(yǔ)法信息詞典在形式上的諸多不足之后,給出了一個(gè)XML的規(guī)范,并根據(jù)該規(guī)范將詞典的部分轉(zhuǎn)換成了XML格式,轉(zhuǎn)換的過(guò)程沒(méi)有出現(xiàn)信息的丟失。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 68
      13人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:文本時(shí)間關(guān)系解析TEMPALRELATIONRESOLUTION是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究?jī)?nèi)容,主要目的是識(shí)別自然語(yǔ)言文本中事件和時(shí)間信息及其時(shí)間關(guān)系,并進(jìn)行事件時(shí)間表達(dá)關(guān)系之間的研究與分析,其在信息檢索系統(tǒng)、問(wèn)答系統(tǒng)、機(jī)器翻譯等人工智能領(lǐng)域有著重要的作用。TIMEMLTIMEMARKUPLANGUAGE是在自然語(yǔ)言文本中標(biāo)注事件和時(shí)間表達(dá)的一種規(guī)范語(yǔ)言,是為提升自然語(yǔ)言問(wèn)答系統(tǒng)的處理性能而提出的,現(xiàn)已成為在事件時(shí)間表達(dá)標(biāo)記的一種ISO標(biāo)準(zhǔn)規(guī)范?;赥IMEML標(biāo)準(zhǔn)進(jìn)行自然語(yǔ)言文本時(shí)間關(guān)系解析研究是當(dāng)前自然語(yǔ)言處理領(lǐng)域的前沿課題,在問(wèn)答系統(tǒng)、機(jī)器翻譯等基于自然語(yǔ)言理解的多種應(yīng)用研究中顯示出了良好的應(yīng)用前景。針對(duì)文本進(jìn)行分析,抽取文本中的事件和時(shí)間,建立事件之間的時(shí)間關(guān)系是對(duì)文本內(nèi)容進(jìn)行分析和時(shí)序挖掘的基礎(chǔ)。科技文本多語(yǔ)言化,而且針對(duì)英文的時(shí)間關(guān)系解析研究較為成熟。因此,本文借助英文事件與時(shí)間的識(shí)別方法,借鑒德語(yǔ)等其他外文的研究經(jīng)驗(yàn),采用英漢平行語(yǔ)料,基于TIMEML標(biāo)準(zhǔn)進(jìn)行漢語(yǔ)文本時(shí)間關(guān)系解析研究。由于英漢語(yǔ)言結(jié)構(gòu)不同導(dǎo)致TIMEML五個(gè)主要標(biāo)簽中涉及語(yǔ)法結(jié)構(gòu)的屬性在英漢對(duì)譯文本之間不能完全平行實(shí)現(xiàn)。針對(duì)漢語(yǔ)語(yǔ)言特點(diǎn),本文對(duì)TIMEML應(yīng)用于漢語(yǔ)文本時(shí)間關(guān)系的標(biāo)注進(jìn)行了分析與理解,并借鑒德語(yǔ)、法語(yǔ)研究的經(jīng)驗(yàn),利用詞對(duì)齊的映射方法和技術(shù),構(gòu)建了漢語(yǔ)事件時(shí)間表達(dá)關(guān)系語(yǔ)料庫(kù)CHINESETIMEBANK。然后,基于CHINESETIMEBANK語(yǔ)料庫(kù),進(jìn)行了漢語(yǔ)文本中事件類(lèi)型之間的時(shí)間關(guān)系研究與分析。實(shí)驗(yàn)結(jié)果表明TIMEML可以成功的應(yīng)用于漢語(yǔ)文本時(shí)間關(guān)系的標(biāo)注,但是在漢語(yǔ)文本時(shí)間關(guān)系解析研究中,針對(duì)個(gè)別屬性(特征)的識(shí)別與分析還需要進(jìn)一步的研究。本文研究首先將TIMEML標(biāo)準(zhǔn)應(yīng)用于漢語(yǔ)文本時(shí)間關(guān)系的標(biāo)注,嘗試構(gòu)建了漢語(yǔ)事件時(shí)間表達(dá)關(guān)系語(yǔ)料庫(kù)CHINESETIMEBANK。然后進(jìn)行了相應(yīng)的時(shí)間關(guān)系解析研究,研究了漢語(yǔ)文本時(shí)間關(guān)系標(biāo)注的方法,對(duì)中文自然語(yǔ)言處理領(lǐng)域時(shí)間關(guān)系語(yǔ)料庫(kù)建設(shè)進(jìn)行了初步探索,對(duì)漢語(yǔ)文本處理研究進(jìn)行了嘗試,這正是本文研究的創(chuàng)新之處和技術(shù)意義所在。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 101
      4人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:重音是一種重要的韻律特征,在目前比較常用的漢語(yǔ)重音檢測(cè)方法中,根據(jù)特征大致可以分為三類(lèi),一類(lèi)是基于聲學(xué)特征的檢測(cè)方法;另一類(lèi)是基于語(yǔ)法特征的檢測(cè)方法;還有一類(lèi)是融合聲學(xué)特征和語(yǔ)法特征的檢測(cè)方法。這三類(lèi)重音檢測(cè)方法作為某些語(yǔ)音系統(tǒng)的關(guān)鍵技術(shù)已經(jīng)廣泛應(yīng)用于實(shí)際生活中。由于實(shí)際生活中存在很多噪聲,使得應(yīng)用效果不太理想。本文在現(xiàn)有漢語(yǔ)重音檢測(cè)方法基礎(chǔ)上,依據(jù)特征種類(lèi)對(duì)漢語(yǔ)重音檢測(cè)方法的影響,從基于上下文聲學(xué)特征、基于感覺(jué)加權(quán)線(xiàn)性預(yù)測(cè)PERCEPTUALLINEARPREDICTIVE,PLP子段拼接短時(shí)譜特征、基于MEL倒譜頻率系數(shù)MELFREQUENCYCEPSTRALCOEFFICIENTS,MFCC子段拼接短時(shí)譜特征和融合各類(lèi)優(yōu)選特征四個(gè)層面上展開(kāi)了漢語(yǔ)重音檢測(cè)方法的研究工作。基于上下文聲學(xué)特征的漢語(yǔ)重音檢測(cè)方法。漢字的重音強(qiáng)度很容易受到周?chē)鷿h字的影響,故本論文為每個(gè)被測(cè)漢字選取了八種不同上下文窗口,由基頻、音強(qiáng)、能量、時(shí)長(zhǎng)及其八類(lèi)上下文窗口特征組成實(shí)驗(yàn)所需的特征集?;赑LP子段拼接短時(shí)譜特征和MFCC子段拼接短時(shí)譜特征的漢語(yǔ)重音檢測(cè)方法。子段拼接短時(shí)譜技術(shù)把一個(gè)漢字的語(yǔ)音幀平均分為若干個(gè)子段,提取每個(gè)子段的相關(guān)語(yǔ)音特征?;赑LP和MFCC子段拼接短時(shí)譜特征重音檢測(cè)方法把一個(gè)漢字的語(yǔ)音幀平均分成1到20個(gè)子段,然后提取每個(gè)子段的最大值、最小值和平均值。融合優(yōu)選特征的漢語(yǔ)重音檢測(cè)方法。本論文介紹了一種特征篩選算法,包括4個(gè)基本步驟子集產(chǎn)生、子集評(píng)價(jià)、停止條件和結(jié)果驗(yàn)證。本文把不同的優(yōu)選特征融合在一起,包括聲學(xué)特征和PLP短時(shí)譜特征的融合、聲學(xué)特征和MFCC短時(shí)譜特征的融合、MFCC短時(shí)譜特征和PLP短時(shí)譜特征的融合以及聲學(xué)特征和短時(shí)譜特征的融合。在噪聲環(huán)境下,融合聲學(xué)特征和短時(shí)譜特征的漢語(yǔ)重音檢測(cè)正確率最高能達(dá)到883%。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 61
      4人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:句法分析是自然語(yǔ)言處理的核心課題之一。依存句法分析是應(yīng)用依存語(yǔ)法對(duì)自然語(yǔ)言進(jìn)行自動(dòng)句法分析,具有形式簡(jiǎn)單、易于標(biāo)注、便于應(yīng)用等優(yōu)點(diǎn),可運(yùn)用于關(guān)系抽取、機(jī)器翻譯、本體構(gòu)建、語(yǔ)義角色標(biāo)注等領(lǐng)域,具有廣泛的應(yīng)用前景。句法分析方法可分為基于規(guī)則和統(tǒng)計(jì)的兩大類(lèi)。在早期研究中,基于規(guī)則的方法占據(jù)主流。但由于其所存在的一些缺陷,80年代中期研究者們開(kāi)始探索統(tǒng)計(jì)的方法。自90年代以來(lái),隨著語(yǔ)料資源的獲取變得容易,統(tǒng)計(jì)方法成為主流。本文使用基于語(yǔ)料庫(kù)的統(tǒng)計(jì)學(xué)習(xí)方法,對(duì)漢語(yǔ)的依存句法分析技術(shù)進(jìn)行了探索。主要包括以下三方面第一,由于很多漢語(yǔ)樹(shù)庫(kù)多采用短語(yǔ)結(jié)構(gòu)的標(biāo)注形式,依存樹(shù)庫(kù)的建設(shè)還存在很多不足。所以,國(guó)內(nèi)外不少研究者都嘗試將短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)轉(zhuǎn)化為依存樹(shù)庫(kù),轉(zhuǎn)化的第一步就要標(biāo)注句法成分的中心詞。針對(duì)此問(wèn)題,本文提出一種基于層疊條件隨機(jī)場(chǎng)的統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,來(lái)提高中心詞識(shí)別的準(zhǔn)確率,從而有利于樹(shù)庫(kù)之間的轉(zhuǎn)化。第二,在漢語(yǔ)依存句法分析中,長(zhǎng)距離依存關(guān)系的識(shí)別是其中的一個(gè)難點(diǎn),也是影響依存分析效果的主要原因。漢語(yǔ)句中的謂詞可將一個(gè)長(zhǎng)句分割為兩個(gè)短句,從而降低了句法分析的難度。本文采用基于最長(zhǎng)名詞短語(yǔ)前處理和規(guī)則后處理的方法來(lái)進(jìn)行謂詞自動(dòng)識(shí)別,為下一步長(zhǎng)距離依存關(guān)系的分析奠定了基礎(chǔ)。第三,本文將漢語(yǔ)依存句法分析分為依存弧和關(guān)系識(shí)別兩步進(jìn)行。依存弧識(shí)別任務(wù)轉(zhuǎn)換為詞對(duì)分類(lèi)問(wèn)題,并采用了一個(gè)基于動(dòng)態(tài)規(guī)劃的搜索算法,提高搜索效率。并在此基礎(chǔ)上,與MST依存句法分析器進(jìn)行融合,來(lái)提高依存弧分析的準(zhǔn)確率。依存關(guān)系類(lèi)型識(shí)別任務(wù)轉(zhuǎn)換為多分類(lèi)問(wèn)題。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的分析及比較,驗(yàn)證了本文方法的有效性。本文前兩部分的工作為依存句法分析提供服務(wù),并在不同層面上解決了漢語(yǔ)依存分析中的難點(diǎn)問(wèn)題。后面的工作主要在漢語(yǔ)依存句法分析上做了理論和技術(shù)上的探索。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 61
      9人已閱讀
      ( 4 星級(jí))
    關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服客服 - 聯(lián)系我們

    機(jī)械圖紙?jiān)创a,實(shí)習(xí)報(bào)告等文檔下載

    備案號(hào):浙ICP備20018660號(hào)