基于ERL的虛擬物種進化.pdf_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、人工生命作為一個新的研究領域,其關于進化的研究是最基本和最重要的課題。它以生命現(xiàn)象為研究對象,以生命過程的機理及其工程實現(xiàn)技術為主要研究內(nèi)容,以擴展人的生命功能為主要研究目標。人工生命的研究興趣在于對生命系統(tǒng)行為特性的仿生,學科中使用由下而上合成的方法,使人工系統(tǒng)具有很好的適應性、靈活性。虛擬生物是智能虛擬環(huán)境的一部分,也是檢驗人工生命理論的一種實驗手段。從人工生命的觀點來看,虛擬生物的感知、認知是進化計算中自發(fā)涌現(xiàn)的結(jié)果,本質(zhì)上也是一

2、個模式形成過程。因此對其中agent的研究可以增進整個系統(tǒng)的能力。人工生命的研究在人工智能系統(tǒng)中有著理論和應用的重要性,其中它的進化模型義能解決機器學習、函數(shù)優(yōu)化、信號處理中的一些問題。 機器學習是人類使用計算機來模擬生物學習能力的一種手段。它是人工智能研究中的重要一環(huán),它的研究對人工智能和機器人技術的發(fā)展具有重要的意義。增強學習是近幾十年來迅速發(fā)展起來的一類機器學習方法。它不需要先驗知識,因此是一種弱化了指導學習的學習方法。它

3、通過和環(huán)境交互時使用的試錯法來學習,這是增強學習的特點之一。增強學習應該理解為一類問題的集合,而不是一類方法的集合。當agent必須通過和環(huán)境的試錯式交互來提高自己的行為、達到某種目的時,它所面臨的問題就是增強學習的問題。由于人工生命是一個多agent系統(tǒng),其中的虛擬環(huán)境是動態(tài)變化的,其他agent的行為是未知的,因此在人工生命模型中使用增強學習模型有利于agent在虛擬環(huán)境中的自學習與自適應。 進化增強學習是將增強學習與智能計

4、算相結(jié)合的一種學習方式,原有的進化增強學習采用了增強學習的學習框架,使用神經(jīng)網(wǎng)絡與遺傳算法相結(jié)合的方法米實現(xiàn)該框架。該模型中一個agent具有評估網(wǎng)和行動網(wǎng)兩種神經(jīng)網(wǎng)絡,它們分別對評估和決策進行計算得出行動策略,并使用遺傳算法對這兩個網(wǎng)絡進行權值優(yōu)化。在增強學習中策略的開發(fā)與探索之間的平衡決定了agent是開發(fā)未執(zhí)行過的行為集還是繼續(xù)探索己經(jīng)在學習過程中得到的知識。一味的開發(fā)將使agent很快地陷入局部最優(yōu),雖然探索可以跳出局部最優(yōu)并加

5、速學習,但過多的探索將影響算法的性能。原有的ERL模型在這方面沒有很好的進行處理,另外此理論在應用中還存在著狀態(tài)空間壓縮,信用分配等問題,因此這種學習方式具有一定的局限性。 本文旨在原有的進化增強學習模型基礎上建立一個多agent系統(tǒng),創(chuàng)建一種能平衡搜索與利用關系的改進模型,以提高agent在虛擬環(huán)境中的適應水平,同時觀察學習與進化在agent中的體現(xiàn)以及虛擬生物在虛擬環(huán)境中怎樣處理生存與繁殖問題,并期望在一定程度上體現(xiàn)人工生命

6、群聚智能和“涌現(xiàn)”特征。 Q學習是在增強學習基礎之上發(fā)展起來的一種新的機器學習方法,它的學習方法是以Q值的大小為指導。在實現(xiàn)過程中改進模型結(jié)合了進化增強學習的Q學習算法與分布式策略方法,遵循學習與進化對人工生命中的虛擬生物的指導作用,使用神經(jīng)網(wǎng)絡完成虛擬物種在虛擬環(huán)境中對環(huán)境的學習和對自身如何進化的學習,弱化了指導學習在學習過程中的作用,使agent依靠環(huán)境作為學習的回饋,有著更好的適應性。模型中的神經(jīng)網(wǎng)絡結(jié)合遺傳算法實現(xiàn)了一個

7、agent評估一決策模型,使agent能進行有目的的移動并在行為過程中得到學習,并且使用Actot-Critic模型中的感知作為行動神經(jīng)網(wǎng)絡的輸入。在神經(jīng)網(wǎng)絡計算過程中結(jié)合了遺傳算法和分布式策略,行動網(wǎng)的最終輸出是一種基于馬爾可大決策鏈的增強學習結(jié)果,這個結(jié)果不是單一的值而是對行動概率的一種描述,當感知到食物或在滿足繁殖條什的情況下,agent的行動在自身行動網(wǎng)輸出的基礎上依照概率選出,岡此在加強了收斂效果的同時也體現(xiàn)了agent的自學

8、習功能。此外還利用遺傳算法作為虛擬物種的進化規(guī)則,使得具有高適應度的物種能夠生存并繁衍下去,籍此使虛擬生物的進化得以實現(xiàn),從而完成agent對外界環(huán)境的自適應功能。 該模型依據(jù)揭示進化與學習關系的Baldwin效應,在神經(jīng)網(wǎng)絡、進化學習、增強學習以及分布式方法的結(jié)合運用下實現(xiàn)agent的學習與進化,體現(xiàn)了學習和進化在人工生命中的重要性以及兩者之間的相互作用。 目前相關實驗大多聚集在單一環(huán)境中的虛擬物種進化學習過程研究上,

9、改進后的增強學習算法不僅能夠較快的收斂并且具有較好的適應度,還增強了agent對非單元環(huán)境的適應性。 在文章最后,對于該模型的具體實現(xiàn)與觀察結(jié)果列出了一些相關實驗數(shù)據(jù),并將實驗結(jié)果的采樣與其他相關實驗進行比較。從給出的仿真模型中表明,agent在具有自由活動、覓食、繁殖、逃避等行為特征的同時,其臼身算法的效果有了一定提高。使用該模型有助于agent對外界環(huán)境的學習與行為決策,并且有較好的收斂性與進化適應度。 本項目具有一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論