1.监督学习

现代强化学习几乎完全集中在深度强化学习上。深度强化学习中的“深”一词意味着在算法的核心方面使用神经网络。神经网络在学习过程中进行一些高维近似。话虽如此，该模型并不需要具有许多层和特征，这是一个普遍的误解，深层暗示了许多层。

几乎所有的课程和教程都假定你可以微调简单的神经网络以近似状态值或创建最终策略。从历史上看，这些模型对以下所有训练参数高度敏感：学习率，批量大小，模型参数，数据规范化等等。RL学习中有许多问题，最好的方法是学习监督学习，然后让AutoML工具为你完成工作。

从学习一些代码开始，理解代码所有内容，然后重新构建。这样做几次，你会学的很好。监督学习也是一项技能，在接下来的十年中，它将转化为计算机科学的大多数领域，因此请紧跟其后。

2.人工智能中的搜索方法

RL是策略空间中的一个搜索问题。近年来影响最大的论文都是从古老的搜索问题中得到了严重的启发。让我们来看看最近在RL最有影响力的三篇论文：

迄今为止最主流的强化学习结果是：Deepmind掌握了许多游戏，并进行了大规模强化学习。最近是利用规划网络来探索的未来行动(https://deepmind.com/research/publications/investigation-model-free-planning)
基于模型的RL的研究现状：基于模型的策略优化（MBPO）。MBPO正在状态作用空间的附近区域进行搜索，以获得更完整的知识。这种模拟的知识就像是一种简单的探索。(https://arxiv.org/abs/1906.08253)
无模型的RL研究现状：Soft Actor-critic (SAC)。SAC以有效勘探和高峰值性能相结合而闻名。它通过最大化策略上的熵项来实现这一点。作为一个搜索问题，直接策略搜索是RL最关键的方面。

你可以在加州大学伯克利分校和麻省理工学院的人工智能课程学习，试试做一两个项目挑战自己。

https://inst.eecs.berkeley.edu/~cs188/

https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-034-artificial-intelligence-fall-2010/

注意，我并没有说阅读学术论文，关键是要能够理解它们。

学术领域变化迅速，每天都有论文在活跃的Twitter社区中公布(说真的，关注几位著名的研究人员——这对你跟上进度很有帮助)。你需要学习的是把有影响力的论文与噪音区分开，把进步与炒作区分开。

它不是关于引用量，尽管我承认引用是一个很好的区别途径。你应该关注的是实验:它们是遵循提出问题、实验、提出解决方案的轨迹，还是只是对另一个方法的渐进改进?最好的论文寻找的是真理，而不是数字。

最好的研究是寻找最重要的问题，而不管学术讨论的浪潮。学会辨别这些信号，你就能跟上这个领域的步伐，成为未来十年有价值的人才。

我写了很多关于强化学习的基本技能的教程，之后会发布出来。