語音信號動態(tài)特征分析及其可視化的關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩143頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、語音信息的傳遞是人們之間交流最方便、最自然的手段。一部分聾啞人不能說話是因?yàn)樗麄兊穆犛X器官遭到損壞,不能將語音信息采集到大腦,但發(fā)音器官是完好的。這種情況下的聾啞人,如果輔助于一些視覺訓(xùn)練系統(tǒng),經(jīng)過一段時間的專門訓(xùn)練,是可以學(xué)會說話并和健全人進(jìn)行交流。對這種將語音信息轉(zhuǎn)換為可以用視覺識別圖像的輔助聾啞人語音訓(xùn)練系統(tǒng)自上世紀(jì)六十年代中期以來國內(nèi)外都有很多研究,但到目前為止這些系統(tǒng)大多采用單一的語音特征表示方法,不僅識別率不高,而且顯示的信

2、息過于專業(yè)化,不宜為聾啞人理解接受。本文著眼于研究語音生成和感知的機(jī)理,特別是語音生成和感知在大腦中的信息傳遞和處理方式,利用現(xiàn)有技術(shù)(小波變換、聽覺模型、神經(jīng)元網(wǎng)絡(luò)和流行學(xué)習(xí)方法等)在語音分析方面的優(yōu)勢,提出一種語音在大腦感知系統(tǒng)中的參數(shù)描述,并以圖形形式進(jìn)行顯示的一種新的語音識別方法。該方法與傳統(tǒng)語音識別方法相比,原理易于理解,計(jì)算量??;同時又試圖證實(shí)語音(至少是元音)的感知過程是一個簡單的拓?fù)溆成洹W罱K形成的圖形易于識別,只需要進(jìn)

3、行簡單的訓(xùn)練,利用聾啞人大腦自身反饋和極強(qiáng)的視覺補(bǔ)償功能,即可進(jìn)行語音的辨識。本文的創(chuàng)新點(diǎn)如下:
   (1)詳盡闡述了傳統(tǒng)語音識別技術(shù)和輔助聾啞人語音訓(xùn)練技術(shù)的研究現(xiàn)狀,并通過對語音生成和感知機(jī)理的系統(tǒng)研究,論證了將人類的語音信號轉(zhuǎn)化為視覺信息的可行性和適用性;同時對現(xiàn)階段在語音分析領(lǐng)域中使用的各種語音圖譜及可視化方法進(jìn)行了較為深入的研究和探討,分析了這些方法各自的原理、應(yīng)用范圍、優(yōu)點(diǎn)和不足;最后在簡要闡述傳統(tǒng)手工語音信號的特

4、征提取方法(包括LPCC、MFCC和PLP等等)的基礎(chǔ)上,基于神經(jīng)元網(wǎng)絡(luò)和流行學(xué)習(xí)方法的基本原理,提出了語音信號自動特征提取的概念和方法。
   (2)提出了一種新的語音信號可視化方法,該方法利用基于小波理論(WT)的多分辨率思想,建立聽覺模型濾波器組來對聽覺系統(tǒng)進(jìn)行模擬,克服了傳統(tǒng)語音分析方法(STFT)對高、低頻段具有相同的時間分辨率和頻率分辨率的缺點(diǎn),這種特性十分接近人耳對聲音信號的感知。對經(jīng)過小波變換濾波后的語音信號進(jìn)行

5、特征編碼形成語音的組合特征,將該組合特征作為一個新的特征量來表示和反映語音的特征規(guī)律;并將這種特征用簡單的圖形表示出來,利用聾啞人自身的大腦來識別語音,在一定程度上實(shí)現(xiàn)了語音變圖像的設(shè)想。
   (3)創(chuàng)建并描述了一種基于時間自組織映射網(wǎng)絡(luò)(TSOM)的語音可讀模式。在自組織映射網(wǎng)絡(luò)( SOM)基礎(chǔ)上,引進(jìn)了時間增強(qiáng)機(jī)制來提高系統(tǒng)性能。該方法彌補(bǔ)了原自組織映射網(wǎng)絡(luò)固定的空間拓?fù)浣Y(jié)構(gòu)和忽視了時間因素(對于語音信號至關(guān)重要)的缺陷。

6、時間自組織映射網(wǎng)絡(luò)(TSOM)方法對隨時間變化的語音譜的可視化尤其有效,連續(xù)短時譜形成了二維映射平面上的一條軌跡并且隨時間的變化可以觀測到語音信號的動態(tài)變化規(guī)律。
   (4)提出了一種基于時間線性嵌入(TLE)的語音信號可視化方法。局部線性嵌入方法(LLE)是一種進(jìn)行特征提取的無人監(jiān)督的學(xué)習(xí)算法,特征提取的目的就是在降低語音信號特征維數(shù)的同時保留語音信號的大部分關(guān)鍵信息。如果語音變量可以由一小部分連續(xù)特征來描述的話,我們可以把

7、語音數(shù)據(jù)看作是嵌入在所有可能波形的高維空間中的低維流形。本文將流形學(xué)習(xí)算法運(yùn)用在語音數(shù)據(jù)處理中,詳細(xì)分析并討論了局部線性嵌入(LLE)的基本算法和局限性;在此基礎(chǔ)上提出了基于時間線性嵌入(TLE)的改進(jìn)算法,盡可能從高維的語音信號中提取出有用的低維結(jié)構(gòu)。該算法在低維空間中分離元音的能力得到了評價并與經(jīng)典的線性降維方法(PCA)進(jìn)行了比較;結(jié)果表明流形學(xué)習(xí)算法在低維空間優(yōu)于經(jīng)典方法并能發(fā)現(xiàn)語音數(shù)據(jù)有用的流形結(jié)構(gòu)。
   (5)提出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論