DAY 30 Actor-Critic

作者：看了感覺真可憐廠廠│2020-09-11 21:48:52│巴幣：2│人氣：179

終於邁入30天了，這個暑假過得還算充實吧

，開學後接了兩科助教加上論文、專題那些，應該是沒甚麼空更新了，不過還是會不斷學習新知的。

正如前面幾篇所說， Actor-Critic是結合Policy-based與Value-based，Actor-Critic是由兩部分所合起來的Actor跟Critic，Actor的翻譯是演員，Critic則是評論家的意思，Actor的部分是由Policy Gradient演進而來，Critic是Q-learning演進而來。也是因為policy-base的可以輕鬆地在連續動作空間内選擇合適的動作，如果是value-base的Q-learning或DQN就會當機，但是Actor的學習效率又比較慢，所以才有Actor-Critic演算法的出現，改進兩者的缺點。

由一個Critic先去學習獎懲的機制，再來Actor 基於概率選行為, Critic 基於 Actor 的行為評判行為的得分, Actor 根據 Critic 的評分修改選行為的概率，Critic 通過學習環境和獎勵之間的關係, 能看到現在所處狀態的潛在獎勵, 所以用它來指點 Actor 便能使 Actor 每一步都在更新。

Actor Critic 方法的優勢：可以進行單步更新，比傳統的Policy Gradient 要快。

Actor Critic 方法的劣勢：取決於Critic的價值判斷，但是Critic難收斂，再加上Actor的更新，就更難收斂了。

但是這樣還不夠，因為Actor-Critic牽扯到了兩個神經網絡，Actor一個，Critic一個，而且在連續的情況下學習，使得這兩者具有相關性，讓神經網絡學不到東西。所以之後又出現了一個演算法叫Deep Deterministic Policy Gradient (DDPG)由DeepMind所開發，另一個比較有名的還有A3C演算法。

30天的更新就到這告一段落了，基本上是想到什麼就更新什麼，一些以前聽過的，但不太懂的就趕快找資料、文章來補足一下，其實有時候真的想不到要更新啥