面向高維數(shù)據(jù)的特征學(xué)習(xí)理論與應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩124頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著信息獲取和信息傳輸技術(shù)的飛速發(fā)展,海量圖像、視頻、文本以及音頻等數(shù)據(jù)不斷生成。這些數(shù)據(jù)結(jié)構(gòu)復(fù)雜、表征維度高,通常含有大量無關(guān)的冗余信息,直接處理和利用這些原始數(shù)據(jù)通常難以獲得理想的效果。特征學(xué)習(xí)就是要從復(fù)雜的高維數(shù)據(jù)中挖掘出反映數(shù)據(jù)本質(zhì)的、更為緊湊的內(nèi)蘊結(jié)構(gòu)特征,不僅可以降低數(shù)據(jù)處理的時空復(fù)雜度,而且可以顯著改善后續(xù)處理任務(wù)如分類、聚類、檢索等的性能。為此,圍繞特征學(xué)習(xí)方法的研究受到了機器學(xué)習(xí)領(lǐng)域?qū)<业母叨戎匾暋D壳皬V為使用的特征學(xué)

2、習(xí)方法包括線性特征學(xué)習(xí)的主成分分析、線性判別分析、非負(fù)矩陣分解等,以及非線性特征學(xué)習(xí)的等距映射、局部線性嵌入方法、拉普拉斯特征映射、鄰域保持嵌入、等距投影、局部保持投影以及判別鄰域嵌入等,雖然這些方法在分析和處理高維數(shù)據(jù)時有其各自的優(yōu)勢,但是在某些場合應(yīng)用時仍然會出現(xiàn)各種問題。本論文正是針對現(xiàn)有特征學(xué)習(xí)方法中的不足,研究相應(yīng)的應(yīng)對措施,并提出了若干全新的算法。除此之外,由于張量能夠自然的表征復(fù)雜的數(shù)據(jù)結(jié)構(gòu)近年來備受關(guān)注,本論文在張量學(xué)習(xí)

3、方法上進(jìn)行了大膽的探索。
  具體來說,本文的主要貢獻(xiàn)集中在以下幾個方面:
  (1)概念分解是純粹的無監(jiān)督學(xué)習(xí)方法,不能利用先驗知識指導(dǎo)學(xué)習(xí)過程。針對上述不足,本文提出基于半監(jiān)督概念分解的特征學(xué)習(xí)方法。該方法利用有監(jiān)督信息指導(dǎo)聚類過程,把對約束獎懲項引入概念分解框架中。由于屬于同一類的數(shù)據(jù)點對在新的表示空間有不同的強度,因此在為每個對約束添加懲罰時,依據(jù)其重要性的大小添加相應(yīng)權(quán)重,更好地解釋了類內(nèi)方差,因而得到了更易于聚類

4、的低維特征。通過精心設(shè)計目標(biāo)函數(shù)使得那些在源空間屬于同一類的數(shù)據(jù)點在低維轉(zhuǎn)換空間仍然屬于同一類,同時給出了求解局部最優(yōu)解的迭代更新策略,并證明了該迭代更新策略收斂。和時下經(jīng)典聚類算法的對比實驗,表明本算法獲得的特征表示更有利于文檔聚類任務(wù)的高效實現(xiàn)。
  (2)針對半監(jiān)督概念分解方法忽略無標(biāo)記樣本的局部結(jié)構(gòu)信息這一缺陷,提出了基于鄰域保持的半監(jiān)督概念分解特征學(xué)習(xí)方法。該方法把對約束信息和與不變性相關(guān)的信息引入到概念分解框架中以提高

5、學(xué)習(xí)性能。這里的不變性不僅包括幾何空間上的鄰域保持性質(zhì),也包括由對約束must-link產(chǎn)生的約束保持性質(zhì)。為此我們使用了捕獲幾何結(jié)構(gòu)信息的p-近鄰圖和保持約束限制的成員鄰接圖編碼信息。此外,構(gòu)造了目標(biāo)函數(shù)的迭代優(yōu)化算法,分析了迭代優(yōu)化算法的收斂性。通過充分的對比實驗驗證了本算法具有更好的適應(yīng)性,可以獲得區(qū)分度更高的特征表示。
  (3)局部保持投影是一種經(jīng)典的無監(jiān)督的流形學(xué)習(xí)方法,但是該方法不能利用有監(jiān)督信息指導(dǎo)學(xué)習(xí)過程。針對上

6、述不足,本文提出了基于局部一致判別的特征學(xué)習(xí)方法。該方法在LPP的基礎(chǔ)上,借助有類別標(biāo)記數(shù)據(jù)點構(gòu)建類內(nèi)鄰接圖和類間鄰接圖,通過優(yōu)化目標(biāo)函數(shù)使得同類的頂點更加緊湊,不同類的頂點更加疏遠(yuǎn),從而完成劃分過程。由此得到的局部一致判別分析方法不僅保持?jǐn)?shù)據(jù)的局部幾何結(jié)構(gòu)信息,同時也增強了數(shù)據(jù)的判別性。除此之外,給出了局部一致判別分析的目標(biāo)函數(shù)的優(yōu)化算法。和經(jīng)典的人臉識別算法在公開數(shù)據(jù)集上的對比試驗表明了本算法的有更強的判別能力。
  (4)給

7、出了張量樹特征學(xué)習(xí)算法框架,揭示了經(jīng)典張量分解如Tucker分解和CP分解與張量樹學(xué)習(xí)理論的關(guān)系,并給出了張量樹特征學(xué)習(xí)算法框架下的鄰域嵌入張量學(xué)習(xí)新算法。數(shù)據(jù)的多樣化、海量化、高階化使研究者們展開多方位的研究,張量作為一種有效的表示和分析復(fù)雜數(shù)據(jù)的工具受到了廣泛關(guān)注。我們在已有工作的基礎(chǔ)上,提出了新的張量樹學(xué)習(xí)算法并構(gòu)建張量樹特征學(xué)習(xí)理論框架,豐富和發(fā)展了張量學(xué)習(xí)的研究內(nèi)容。進(jìn)一步地,在判別鄰域嵌入方法的基礎(chǔ)上,提出了張量樹特征學(xué)習(xí)理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論