事後觀察經驗回放。OpenAI的論文。 1707.01495 摘要: 處理稀疏獎勵。提出了Hindsight Experience Replay新技術,使得可以從稀疏二元的獎勵中進行有效的學習。可以與任意off-policy的強化學習算法結合。可以看作一種implicit curriculum。 在用機械臂操作物件的任務進行了演示。在3個不