連日來一種通過人類嬰兒的行為來改善機器學(xué)習(xí)的技術(shù)向來一不斷的有小伙伴關(guān)注,不僅如此還衍生出了各大相關(guān)話題,那么跟著小編來看看一種通過人類嬰兒的行為來改善機器學(xué)習(xí)的技術(shù)以及它的相關(guān)資訊吧!
從他們生命的最初幾年開始,人類就具有不斷學(xué)習(xí)的天生能力,并通過觀察周圍環(huán)境中的事物或人與他們互動來建立世界的心理模型。認知心理學(xué)研究表明,人類廣泛使用這種先前獲得的知識,特殊是當他們遇到新的情況或做出決定時。
盡管最近在人工智能(AI)領(lǐng)域取得了重大發(fā)展,但大多數(shù)虛擬代理仍然需要數(shù)百小時的培訓(xùn)才干在多個任務(wù)中實現(xiàn)人類級別的性能,而人類可以在幾小時或更短時間內(nèi)學(xué)會完成這些任務(wù)。最近的研究突出了人類獲得知識的能力的兩個關(guān)鍵因素 - 即直覺物理學(xué)和直覺心理學(xué)。
這些直覺模型已經(jīng)在人類從進展的早期階段觀察到,可能是未來學(xué)習(xí)的核心推動者?;谶@一想法,韓國高等科學(xué)技術(shù)研究院(KAIST)的研究人員最近開辟了一種內(nèi)在獎勵歸一化方法,同意 AI代理選擇最能改善其直覺模型的行為。在他們的論文中,預(yù)先發(fā)表在arXiv上,研究人員特殊提出了一個圖形物理網(wǎng)絡(luò),它與深層強化學(xué)習(xí)相結(jié)合,受到人類嬰兒學(xué)習(xí)行為的啟示。
研究人員在他們的論文中解釋說:“想象一個房間里的人類嬰兒,玩具周圍有可到達的距離。” “他們不斷地抓住,投擲和對物體采取行動;有時,他們會觀察他們行為的后果,但有時,他們會失去興趣并轉(zhuǎn)向另一個物體。”作為科學(xué)家的兒童觀點表明,人類嬰兒是內(nèi)在動機進行自己的實驗,發(fā)現(xiàn)更多信息,并最終學(xué)會區(qū)分不同的對象,并制造更豐富的內(nèi)部表征。“
心理學(xué)研究表明,在人生的最初幾年,人類不斷嘗試周圍環(huán)境,這使他們能夠形成對世界的重要理解。此外,當兒童觀察到的結(jié)果不符合他們之前的期望時(稱為預(yù)期違規(guī)),他們經(jīng)常被鼓舞進一步嘗試,以更好地了解他們所處的情況。
KAIST的研究小組試圖使用強化學(xué)習(xí)方法在AI代理中重現(xiàn)這些行為。在他們的研究中,他們首先引入了一個圖形物理網(wǎng)絡(luò),可以提取對象之間的物理關(guān)系,并預(yù)測它們在三維環(huán)境中的后續(xù)行為。隨后,他們將該網(wǎng)絡(luò)與深度強化學(xué)習(xí)模型相結(jié)合,引入了內(nèi)在獎勵規(guī)范化技術(shù),鼓舞AI代理人探究并識別將不斷改進其直覺模型的行為。
研究人員使用三維物理引擎證明了他們的圖形物理網(wǎng)絡(luò)能夠有效地判斷出不同物體的位置和速度。他們還發(fā)現(xiàn),他們的方法同意 深度強化學(xué)習(xí)網(wǎng)絡(luò)不斷改進其直覺模型,鼓舞它僅僅基于內(nèi)在動機與對象進行交互。
在一系列評估中,由該團隊的研究人員設(shè)計的新技術(shù)實現(xiàn)了非凡的準確性,AI代理執(zhí)行了大量不同的探究行動。在未來,它可以為機器學(xué)習(xí)工具的開辟提供信息,這些工具可以更快,更有效地從過去的經(jīng)驗中學(xué)習(xí)。
研究人員在他們的論文中解釋說:“我們已經(jīng)在各種場景中用固定和非固定問題測試我們的網(wǎng)絡(luò),其中球形物體具有不同的質(zhì)量和半徑。” “我們希翼這些預(yù)先訓(xùn)練好的直覺模型將被用作其他目標導(dǎo)向任務(wù)的先驗知識,如ATARI游戲或視頻預(yù)測。”