基于韻律特征的GMM-UBM的說話人確認研究.pdf_第1頁
已閱讀1頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、文本無關的說話人識別是目前語音信號處理的一個重要研究方向,其廣泛的應用于公安、軍隊、金融等領域的身份驗證和信息檢索,使得說話人識別技術在全世界各研究機構(gòu)的努力下不斷發(fā)展和革新。為了考察語音技術的最新研究和發(fā)展水平,美國國家標準技術委員會(NIST)于1996年開始組織了說話人識別的評測,NIST也代表了全世界說話人識別領域的最高水平。它設立了多個評測任務,并為每個參賽單位提供了統(tǒng)一的多通道和多環(huán)境的電話和廣播語音、測試規(guī)則和標準,用于研

2、究不同環(huán)境和條件下的語音技術的研究方法。在NIST SRE中,用長語音進行說話人識別是說話人識別任務的一個子任務,就是為了研究如何用語音信號中的高層信息經(jīng)行話者確認而設置的。
  除了我們常用的梅爾倒譜特征參數(shù)MFCC,語音中的高層特征參數(shù)也是一種用于說話人識別的有效特征參數(shù),但其往往是與文本內(nèi)容有關的,因此如何從語音信號中提取出文本無關的高層特征參數(shù)用于說話人識別是目前研究的焦點。本文在如何提取韻律特征的參數(shù)及結(jié)合高斯混合模型用

3、于說話人識別進行了探討。
  針對上述問題,本文所做的工作主要有以下3點:
  (1)本文首先詳細介紹了常用的基頻提取方法:自相關函數(shù)法、循環(huán)幅值差分函數(shù)法、倒譜法,通過實驗,研究了基頻提取的正確率對基于超音段韻律特征參數(shù)的說話人識別系統(tǒng)性能有較大影響,并提出了改進的基于循環(huán)幅值差函數(shù)法和倒譜法的方法,對這四種方法經(jīng)行了實驗對比。通過實驗驗證,各項指標包括均方根誤差,基頻正確率和嚴重錯誤率表明,改進的基于循環(huán)幅值差函數(shù)法和倒

4、譜法的方法,也即是本文的方法比其他三種中任何一種要好。
  (2)本文通過實驗說明了不同的說話人超音段韻律特征分布的差異,并根據(jù)這種差異,構(gòu)建了基于超音段韻律特征的高層說話人特征參數(shù)。結(jié)合經(jīng)典的GMM-UBM-MAP的識別模型,搭建了基于超音段韻律特征參數(shù)的說話人識別系統(tǒng),通過實驗,該系統(tǒng)單獨用于說話人識別的等誤識率EER達到17.77%。
  (3)短時特征參數(shù)MFCC反映了說話人的聲道特征,而超音段韻律特征參數(shù)以基頻為主

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論