系统搜索到约有 1 项符合 算法SAC 的查询结果

    1. 最大熵强化学习算法SAC

    模型结构模型同时学习action value Q、state value V和policy π。 V中引入Target V,供Q学习时使用;Target Network使学习有章可循、效率更高。 Q有两个单独的网络,选取最小...【详细内容】
    2020-07-05  算法
| 热门信息
| 推荐信息
| 最新信息