在很多應用場景中,馬爾可夫決策過程的狀態轉移概率 \(p(s^ {\prime}|s,a)\) 和獎勵函數 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。這種情況一般需要智能體與環境交互,然後收集一些樣本,然後再根據這些樣本來求解最優策略,這種基於採樣的學習方法稱為模型無關的強化學習 \([1]\). 1 蒙特卡羅預
70. 爬樓梯 假設你正在爬樓梯。需要n階你才能到達樓頂。 每次你可以爬1或2個台階。你有多少種不同的方法可以爬到樓頂呢? 示例 1: 輸入:n = 2 輸出:2 解釋:有兩種方法可以爬到樓頂。 1. 1 階 + 1 階 2. 2 階 示例 2: 輸入:n = 3 輸出:3 解釋:有三種方法可以爬到樓頂。 1