算法訓練

標籤

貢獻1

187

09:09 AM · Nov 17 ,2025

@u_16213637

暱稱mob64ca140530fb

Last seen

@算法訓練 / 博客 RSS 訂閱

Nov 17 2025

mob64ca140530fb - ppo算法不是深度強化學習嘛

一、概述引用GAE論文的觀點，策略梯度法存在的兩個方面問題：樣本利用率低，由於樣本利用率低需要大量採樣；算法訓練不穩定，需要讓算法在變化的數據分佈中穩定提升；目前比較常用的四種置信域方法TRPO、ACER、ACKTR、

機器學習 , 強化學習 , ppo算法不是深度強化學習嘛 , 數據分佈 , acer軟件保護卡怎麼解除 , 人工智能 , 算法訓練

1