創作內容

1 GP

DAY 30 Actor-Critic

作者:看了感覺真可憐 廠廠│2020-09-11 21:48:52│巴幣:2│人氣:179
終於邁入30天了,這個暑假過得還算充實吧 ,開學後接了兩科助教加上論文、專題那些,應該是沒甚麼空更新了,不過還是會不斷學習新知的。
正如前面幾篇所說, Actor-Critic是結合Policy-based與Value-based,Actor-Critic是由兩部分所合起來的Actor跟Critic,Actor的翻譯是演員,Critic則是評論家的意思,Actor的部分是由Policy Gradient演進而來,Critic是Q-learning演進而來。也是因為policy-base的可以輕鬆地在連續動作空間内選擇合適的動作,如果是value-base的Q-learning或DQN就會當機,但是Actor的學習效率又比較慢,所以才有Actor-Critic演算法的出現,改進兩者的缺點。

由一個Critic先去學習獎懲的機制,再來Actor 基於概率選行為, Critic 基於 Actor 的行為評判行為的得分, Actor 根據 Critic 的評分修改選行為的概率,Critic 通過學習環境和獎勵之間的關係, 能看到現在所處狀態的潛在獎勵, 所以用它來指點 Actor 便能使 Actor 每一步都在更新。

Actor Critic 方法的優勢:可以進行單步更新,比傳統的Policy Gradient 要快。
Actor Critic 方法的劣勢:取決於Critic的價值判斷,但是Critic難收斂,再加上Actor的更新,就更難收斂了。

但是這樣還不夠,因為Actor-Critic牽扯到了兩個神經網絡,Actor一個,Critic一個,而且在連續的情況下學習,使得這兩者具有相關性,讓神經網絡學不到東西。所以之後又出現了一個演算法叫Deep Deterministic Policy Gradient (DDPG)由DeepMind所開發,另一個比較有名的還有A3C演算法。


30天的更新就到這告一段落了,基本上是想到什麼就更新什麼,一些以前聽過的,但不太懂的就趕快找資料、文章來補足一下,其實有時候真的想不到要更新啥,看了半天的數學公式,還是不太好理解,所以文章內大多都是演算法的想法,因為大多數的套件都已經寫好了,要自己手刻一個還不一定比別人的好,所以懂這個演算法在做甚麼,我覺得比較重要
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4913410
All rights reserved. 版權所有,保留一切權利

相關創作

留言共 0 篇留言

我要留言提醒:您尚未登入,請先登入再留言

1喜歡★paul20217 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:DAY 29 Polic... 後一篇:當兵紀錄...

追蹤私訊切換新版閱覽

作品資料夾

kkll7952全體巴友
+ 3月-4月遊戲製作進度+簡報分享(2024) +  https://home.gamer.com.tw/creationDetail.php?sn=5919640看更多我要大聲說3小時前


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】