基于深度學(xué)習模型的圖像文本檢測和質(zhì)量評價研究.pdf_第1頁
已閱讀1頁,還剩124頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、在圖像文本檢測時,需要高效可靠的方法從圖像中學(xué)習表征性強的文本特征。在無參考圖像質(zhì)量評價中,準確的質(zhì)量評估也依賴關(guān)鍵質(zhì)量特征的提取。在這兩個應(yīng)用中,有效自動地提取可視化數(shù)據(jù)中的有用信息(特征)非常關(guān)鍵。但是從實際應(yīng)用的圖像中,獲取有效信息面臨著巨大的挑戰(zhàn),包括數(shù)據(jù)的海量性和復(fù)雜多樣性,不同應(yīng)用需求的特征不同,傳統(tǒng)啟發(fā)式方法判別性不強等問題。研究人員希望特征學(xué)習算法具有增強的泛化能力和較少依賴于領(lǐng)域的知識。
  深度學(xué)習通過建立、模

2、擬人腦進行分析學(xué)習的網(wǎng)絡(luò),能從數(shù)據(jù)中學(xué)習,發(fā)現(xiàn)數(shù)據(jù)特征表示。由此,本文展開了運用深度學(xué)習模型來進行圖像文本檢測和質(zhì)量評價的相關(guān)研究。主要研究了如何提取隱含字符特征提高文本檢測準確率,并進一步研究學(xué)習與語言類別無關(guān)的文本特征,實現(xiàn)多語言文本檢測,還研究了如何提取與視覺感知高度相關(guān)的質(zhì)量特征,建立客觀質(zhì)量評價模型。具體研究工作與創(chuàng)新點如下:
 ?。?)在自然圖像的文本檢測中,文本特征的有效提取很關(guān)鍵。在現(xiàn)有的特征提取方法中,基于卷積神

3、經(jīng)網(wǎng)絡(luò)的方法能模擬視覺皮層感受野的行為,是目前主流的研究方法。但是由于卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,仍然可以通過許多技術(shù)的改進進一步提高網(wǎng)絡(luò)性能。鑒于此,本文對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進行改進,提出了基于ICPT-CNN的文本定位檢測算法。提出的ICPT-CNN網(wǎng)絡(luò)架構(gòu)具有:1)采用基于橫向抑制的局部響應(yīng)歸一化對隱含特征進行處理,局部特征既具有不變性又具有可區(qū)分性,提高了特征表征能力;2)采用ReLUs激活函數(shù)在一定程度上降低了網(wǎng)絡(luò)復(fù)雜度。實驗結(jié)果表明

4、 ICPT-CNN網(wǎng)絡(luò)架構(gòu)合理,提取的聯(lián)合隱含特征優(yōu)化性較好,該特征用于字符識別時具有較高的準確率。將學(xué)習到的聯(lián)合特征用于圖像文本檢測,在標準ICDAR數(shù)據(jù)集上進行測試,本文 ICPT-CNN方法在保持與其他先進文本檢測算法準確率相同的情況下,F(xiàn)-measure提高了1%。
 ?。?)針對圖像中多語言文本檢測問題,提出一個基于SF-CNN的多語言文本檢測算法。算法考慮了不同語言文字的先驗約束,采用先學(xué)習筆畫特征,再學(xué)習文本特征的遞

5、進方法。提出了基于數(shù)據(jù)空間局部分散度的K均值初始化,獲得滿足要求的初始化筆畫特征,在此基礎(chǔ)上,采用改進的K-means聚類算法學(xué)習到筆畫特征。算法中提出的SF-CNN網(wǎng)絡(luò)不同于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),卷積核不是隨機產(chǎn)生的,而是以非監(jiān)督學(xué)習的筆畫特征作為第一個卷積層的卷積核,用于構(gòu)建與語言類型無關(guān)的有效文本特征。此外,算法把高性能的深度學(xué)習方法與MSERs方法相結(jié)合,利用SF-CNN較強的學(xué)習能力提高MSERs方法檢測準確率,也通過MSERs對

6、低質(zhì)量文本較強的檢測能力彌補了SF-CNN網(wǎng)絡(luò)難以應(yīng)用高層特征對這類文本檢測的不足,兩者優(yōu)勢互補。大量實驗結(jié)果表明基于SF-CNN的算法能有效學(xué)習到與語言類別無關(guān)的隱含文本特征,實現(xiàn)了自然場景中多種不同語言的文本信息檢測。
  (3)在無參考圖像質(zhì)量評價中,如何提取與視覺感知質(zhì)量高度相關(guān)的圖像特征是目前所面臨的重要挑戰(zhàn)。在現(xiàn)有的研究方法中,很少有基于卷積神經(jīng)網(wǎng)絡(luò)的評價方法,因為傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計不是用于獲取圖像質(zhì)量特征。本文將

7、深度學(xué)習的思想引入圖像質(zhì)量評價研究中,提出了基于IQF-CNN的無參考圖像質(zhì)量評價算法。為了能夠?qū)W習到具有NSS特性的圖像質(zhì)量特征,在預(yù)處理階段,本文算法對圖像做局部亮度系數(shù)歸一化,消除局部平均位移和歸一化局部方差,從變換域中提取可區(qū)分性特征。然后利用特征和圖像主觀質(zhì)量訓(xùn)練IQF-CNN網(wǎng)絡(luò),得到無參考型圖像客觀質(zhì)量評價模型。在IQF-CNN網(wǎng)絡(luò)中為了提高學(xué)習能力,采用dropout技術(shù)防止過擬合,改進了網(wǎng)絡(luò)層數(shù)和架構(gòu),使學(xué)習到的特征表

8、征性更強。此外,提出的IQF-CNN框架允許學(xué)習和預(yù)測局部區(qū)域質(zhì)量。通過實驗詳細分析了各種網(wǎng)絡(luò)參數(shù)對圖像質(zhì)量評價性能的影響,并在LIVE數(shù)據(jù)集上進行了驗證,為以后基于深度學(xué)習的圖像質(zhì)量評價研究提供了參考。同時,在LIVE和TID2008標準數(shù)據(jù)集上進行了一系列實驗,實驗結(jié)果表明本文算法能較準確的評估五種常用的圖像失真,在各種失真上都與人眼主觀感知質(zhì)量具有較高的一致性,整體性能較優(yōu)于其他經(jīng)典評價方法。
  本文研究的挑戰(zhàn)來自于兩個方

9、面:1)在現(xiàn)有的研究基礎(chǔ)上,提高深度學(xué)習方法在自然圖像文本檢測上的性能,不僅需要改進深度卷積網(wǎng)絡(luò)內(nèi)部的隱含特征處理技術(shù),還需要能將深度學(xué)習方法與其他檢測方法有效融合運用;2)運用基于 CNN的深度學(xué)習方法進行圖像質(zhì)量估計是一個較新的研究方向,沒有太多相似經(jīng)驗可以參考,需要通過不斷的探索和大量的實驗隨時分析并修正研究方法和策略。
  綜上所述,通過深入研究運用深度學(xué)習的方法于自然圖像的文本檢測和無參考圖像質(zhì)量評價,提出了上述若干深度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論