引入大语言模型、首个支持国产算力生态，全新开源RL框架RLLTE来了

时间：2023-10-12 13:43:48 来源：机器之心Pro 作者：

近年来，强化学习的研究热度不断攀升，在智能制造、自动驾驶、大语言模型等多个领域取得了耀眼成绩，展示出巨大的研究潜力。然而，强化学习算法高效、可靠的工程实现仍是长期存在的问题。由于其算法结构的复杂性，微小的代码差异就可能严重影响实际性能。

为了解决这一问题，科研和开发者社区先后提出了多个强化学习框架，如强调稳定性和可靠性的 Stable-Baselines3、模块化设计的 Tianshou 以及单文件实现算法的 CleanRL，为强化学习的学术研究和应用开发做出了积极贡献。然而，大部分项目的活跃周期较短，未建立合理的长期演进计划，并且代码风格迥异，限制了社区的开源协作。它们也没有构建完整的项目生态，仅专注于模型训练，而忽略了评估、部署等现实需求。同时，这些项目缺乏完备的测试数据，导致复现成本极高，阻碍了后续研究的进行。

为了解决以上问题，来自香港理工大学、宁波东方理工大学（暂名）、普渡大学和大疆科技的研究者和算法团队，受到电信中「长期演进技术（LTE）」的启发，发布了名为 RLLTE 的开源强化学习框架，旨在为促进强化学习研究和应用提供开发组件和工程标准。RLLTE 不仅提供高质量的算法实现，还可作为工具库用于新算法的开发。

论文链接：https://arxiv.org/pdf/2309.16382.pdf

代码 / Demo 链接：https://Github.com/RLE-Foundation/rllte

官方网站：https://docs.rllte.dev/

RLLTE 从「探索 - 利用」的角度出发对强化学习算法进行完全解耦，将它们分解为若干最小基元，例如用于处理观测的编码器（Encoder），以及用于经验存储和采样的存储器（Storage）。RLLTE 为每一种基元提供了丰富的模组供开发者选择，使得开发者可以以「搭积木」的方式进行强化学习算法的构建。RLLTE 框架的主要功能和亮点如下：

极致模块化：RLLTE 的核心设计思想是像 PyTorch 一样为强化学习算法开发提供标准、便捷、即插即用的开发组件，而并非专注于提供具体的算法实现。因此，RLLTE 实现的算法中每个组件都是可替换的，并且支持用户使用自定义的模块。这一解耦过程有助于算法可解释性的研究和更深层次的改进探索。

长期演进：RLLTE 作为一个长期演进的框架，将会持续更新强化学习中的先进算法和工具。为了保持项目的体量和高质量，RLLTE 只更新通用的算法，抑或是在采样效率或者泛化能力方面做出的改进，并且要求这些算法必须在广受认可的基线上取得杰出的性能。

数据增强：近年来的大量研究将数据增强技巧引入强化学习算法，以实现采样效率和泛化能力的显著提升。RLLTE 默认支持数据增强操作，并提供大量观测（Observations）增强和内在奖励（Intrinsic Rewards）模组供开发者选择。

丰富的项目生态：RLLTE 同时考虑学术界和工业界的需求，构建了丰富的项目生态。开发者可以在一个框架中实现任务设计、模型训练、评估以及部署。并且，RLLTE 还尝试将大语言模型引入该框架，以降低用户学习成本，加速强化学习的应用构建。

完备的基线数据：现有的强化学习框架通常只在有限的任务上进行算法测试，缺乏完备的测试数据（训练曲线和测试分数等）。由于强化学习训练的高算力消耗，这是可以理解的，但阻碍了后续的研究进行。为了解决这一问题，RLLTE 依托 Hugging Face 平台建立了数据仓库，并对内置算法在广受认可的基线上进行测试以提供完整的训练数据。

多硬件支持：在当前全球算力需求激增的背景下，RLLTE 被设计为支持多种算力设备以保证灵活性和可拓展性。当前，框架支持使用 NVIDIA GPU 和 HUAWEI NPU 进行训练，并支持在 NVIDIA TensorRT 以及 HUAWEI CANN 架构下进行推理端部署。RLTLE 也是首个支持国产算力生态的强化学习框架。

RLLTE 框架介绍

RLLTE 框架主要包含三个层级：核心层（Core）、应用层（Application）以及工具层（Tool）。

核心层从「探索 - 利用」的角度对 RL 算法进行完全解耦，并将其拆分成以下 6 大基元：

RLLTE 为每一类基元提供了大量模组供开发者选择。例如，storage 模块中提供了 VanillaReplayStorage 和 DictReplayStorage 分别用于存储普通格式和字典格式的观测数据。

应用层基于核心层的模组提供强化学习算法的实现（rllte.agent）、预训练（Pre-trAIning）、模型部署（Deployment）以及开发助手（Copilot）。

工具层为任务设计（rllte.env）、模型评估（rllte.evaluation）以及基线数据（rllte.hub）提供方便的应用接口。

用户可以直接调用 RLLTE 实现好的算法进行训练，例如使用 DrQ-v2 算法解决视觉控制任务：

开始训练，将会看到以下输出：

或者，使用内置的算法原型和模块进行快速算法开发：

使用 RLLTE，开发者只需几十行代码即可实现 A2C 等知名强化学习算法。并且，对于实现好的算法，开发者可以更换其内置模块以进行性能比较和算法改进。例如，比较不同的 Encoder 对同一算法性能的影响：

对于训练好的模型，开发者可以调用 rllte.evaluation 中的工具进行算法评估和可视化：

在学术研究中，使用 rllte.hub 快速获取算法的训练数据和模型参数：

大语言模型融入 RL 框架

RLLTE 是首个尝试引入大语言模型的强化学习框架，以此来降低开发者的学习成本，以及协助进行强化学习应用的开发。

RLLTE 参考了 LocalGPT 等项目的设计理念，开发了 Copilot，无需额外训练并且保证用户数据的绝对隐私。其首先使用 instructor embedding 工具对由项目文档、教程以及强化学习论文等构成的语料库进行处理，以建立本地化的向量数据库，然后使用诸如 Vicuna-7B 的大模型对问题进行理解，并基于该向量数据库给出答案。用户可以根据自己的算力情况自由更换基础模型，未来我们也将进一步丰富该语料库并添加更多高级功能来实现更加智能的强化学习专属 Copilot。

作为一个长期演进的强化学习框架，RLLTE 未来将持续跟踪最新的研究进展并提供高质量的算法实现，以适应开发者变化的需求并对强化学习社区产生积极影响。

Tags：大语言模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

为何大语言模型不会取代码农？

译者 | 布加迪审校 | 重楼生成式人工智能（GenAI）会取代人类程序员吗？恐怕不会。不过，使用GenAI的人类可能会取代程序员。但是如今有这么多的大语言模型（LLM），实际效果不一而足。如...【详细内容】

2024-03-21　　Search: 大语言模型点击:(21)　　评论:(0)　　加入收藏

大语言模型插件功能在携程的Python实践

作者简介成学，携程高级安全研发工程师，关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初，科技圈最火爆的话题莫过于大语言模型了，它是一种全新的聊天机器人模型，...【详细内容】

2024-01-26　　Search: 大语言模型点击:(73)　　评论:(0)　　加入收藏

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

ChatGPT 的诞生，让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能（AGI）铺开了一条革命性的道路，并在知识库、人机交互、机器人等多个领域得到应用。然而，目前存在一个普...【详细内容】

2024-01-03　　Search: 大语言模型点击:(114)　　评论:(0)　　加入收藏

大语言模型真的需要这么多层吗？

研究表明，移除70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微，这暗示大语言模型或许训练得不够充分。本文经授权转载宝玉老师的个人博客(微博@宝玉xp )，链接https://ba...【详细内容】

2023-12-19　　Search: 大语言模型点击:(67)　　评论:(0)　　加入收藏

大语言模型量化方法对比：GPTQ、GGUF、AWQ

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。说明：每次加载LLM示例后，建议清除缓存，以防...【详细内容】

2023-11-17　　Search: 大语言模型点击:(262)　　评论:(0)　　加入收藏

SEO中的大语言模型量化方法

随着互联网的快速发展，搜索引擎优化（SEO）已经成为了企业提升网站流量和排名的重要手段。在SEO的过程中，大语言模型量化方法被广泛应用，以帮助企业更好地理解搜索引擎的工作原理，并...【详细内容】

2023-11-16　　Search: 大语言模型点击:(186)　　评论:(0)　　加入收藏

大语言模型数据泄露堪忧，超自动化Agent成解决之道

文/王吉伟阻碍广大企业应用大语言模型（LLM，Large Langeuage Models）的诸多因素中，无疑数据安全是最重要的。3月份ChatGPT发生了用户隐私数据泄露事件，OpenAI声明由于开源代码库中...【详细内容】

2023-11-15　　Search: 大语言模型点击:(187)　　评论:(0)　　加入收藏

无限上下文，多级内存管理！突破ChatGPT等大语言模型上下文限制

目前，ChatGPT、Llama 2、文心一言等主流大语言模型，因技术架构的问题上下文输入一直受到限制，即便是Claude 最多只支持10万token输入，这对于解读上百页报告、书籍、论文来说非常...【详细内容】

2023-11-02　　Search: 大语言模型点击:(274)　　评论:(0)　　加入收藏

十个2023年最具影响力的开源大语言模型

由于大型语言模型（LLM）的崛起，2023年被认为是开源领域的关键一年。下面精心挑选了一些在2023年上半年掀起波澜的最有影响力的模型。这些模型几乎可以与band、GPT-3.5、GPT4、Cl...【详细内容】

2023-10-13　　Search: 大语言模型点击:(333)　　评论:(0)　　加入收藏

引入大语言模型、首个支持国产算力生态，全新开源RL框架RLLTE来了

近年来，强化学习的研究热度不断攀升，在智能制造、自动驾驶、大语言模型等多个领域取得了耀眼成绩，展示出巨大的研究潜力。然而，强化学习算法高效、可靠的工程实现仍是长期存在的...【详细内容】

2023-10-12　　Search: 大语言模型点击:(363)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

20元引发的官司：“仅退	网约车抽成“套路”多
A股分拆上市密集改道：	探访“中国黄金第一家
藏在AI背后的“吃电狂	看1280份年报：大消费复
美联储年内可能不降息	热门黄金ETF瞬间跌停！