您当前的位置:首页 > 电脑百科 > 人工智能

解析服务型智能机器人的学习方法论

时间:2022-07-26 14:14:06  来源:  作者:格物斯坦机器人教育

近些年,随着服务型机器人和民用无人设备的快速发展,传统依靠人手工编程设计规则实现的基于规则判断的确定性的机器人操作和规划正面临着越来越大的挑战:随着任务的逐渐复杂化和场景的动态化,机器人所面对的操作环境和过程的复杂程度快速上升,使得规则难以设计;另一方面,用户对服务型机器人和无人设备的行为亲和性提出了更高的要求,机器人需要在与人合作过程中采取更适应人类习惯,更个性化的行为模式,即从人适应机器逐步向机器适配人发展,这就使机器人行为的可学习性与适应性变得格外重要。

 

早先为赋予机器人执行任务的能力,在机械和自动化领域已有大量成熟的不基于学习的方法,其特点为使用了大量的预先设计的操作与决策规则。代表性的如使用软件编程方式实现的序列操作逻辑、使用目标相关的引导函数直接完成对行为的逆运动学优化求解、使用轨迹跟随方式直接控制机器人执行给定轨迹和远程遥操作机器人行为等。机器人实验室建设在目前主流的机器人任务环境中拥有广泛的应用,但仍有不足:在设计规则或任务优化函数时,需要对机器人的机械结构、性能有较清晰的建模;对环境的确定性有较为严格的假设要求,在遥操作中对操作者的操作水平、操作通信的实时性有较高的要求,这些要求随着机器人在道路、室内等非结构化环境中的逐步普及,变得越来越难以满足。基于青少儿机器人学习方法依赖现存的方法发展而来,通过从数据中的学习完成对策略的调整,不断地降低机器人操作策略制定中人参与的部分;同时通过探索学习,自主实现对环境的建模,从而放松对环境和自身机械结构建模的依赖。

解析服务型智能机器人的学习方法论

 


不同于使用预先设计的规则实现操作任务,机器人技能学习强调在动态变化的环境中,在给定的任务下,利用大量数据或仿真提供的信息,动态交互地自主实现任务技能学习,并使用学习得到的策略在动态的环境中完成任务规划。创未来机器人作为一种学习方法,数据的质量和形式极大地影响着学习效果的好坏。对于离散时间(多步)决策序列,我们定义每一个决策时刻所依据的有限信息为,在此时刻执行的有限决策行为为,所构成的行为序列轨迹为。学习的数据为由行为序列构成的集合,学习的对象是任意状态下的决策策略。现有的两种常见的数据获取和策略优化方式为:


给出人工指定的函数来指导策略学习的强化学习类方法:使用建模在行为序列上的回报函数和建模序列行为的好坏,通过动态规划迭代求取最优策略。机器人课程教案与儿童机器人编程此方法适用于序列中每一时刻的行为优劣都有清晰明确的定义的情形,即较高的回报函数和代表较好的执行效果。此时我们可以通过大量的迭代探索,实现对回报函数的优化,同时得到大量较优的行为轨迹以进行策略的学习。

此方法以最大化与专家示教策略的相似程度作为学习目标,适用于任务指标难以明确,回报函数难以设计的场合。可以通过遥操作或专家在回路中的操作来获得。得到专家示教序列后,可以通过不断地环境交互实现最大化重现专家状态,进而最大化重复专家的决策行为。目前常见的使用回报函数定义最优策略并进行学习的方法为强化学习方法,强化学习方法通过定义一套值函数,并借助环境探索遍历迭代完成对值函数的采样与近似。教学教具 机器人其中值函数的物理意义为在当前策略下,在状态或在状态而做出动作所得到的预期回报函数和,即代表了对当前策略在当前情形下的最优性的判断。通过每次采用最大化回报函数的策略,或按照回报函数增长方向更新现有策略,即可学习得到更好的行为决策模型。此类方法由于其目标为最优化回报函数期望和,因此效果好坏严格依赖回报函数本身的定义是否足够严谨,对较差轨迹的区分是否足够显著。


目前常见的使用示教轨迹定义最优策略并进行学习的方法为模仿学习方法。模仿学习方法通过定义一种建立在专家决策序列和当前策略产生的序列之间的相似性度量,或直接建立策略之间的相似性度量,并使之最大化(或最小化)来完成对专家示教中蕴含策略的学习。机器人早教常见的模仿学习方法分为两大类,其一为直接通过在示教样本上的监督学习来学习专家策略,数学描述为在专家决策序列每一时刻的状态-决策对下,监督式的学习,从而使得在每个专家状态上,最大可能性的复现专家示教的决策行为。

 

这种做法在面对确定性环境时较为快捷,但无法应对动态环境下未知状态带来的影响,即当实际执行时,由于累计误差和噪声等因素的影响,机器人到达未出现在专家示教序列中的状态时,其决策行为将无法得到有效保证。另一种方法是使用逆强化学习,借助环境探索,机器人少儿评价,不仅要求在专家示教包含的状态上做出相似于专家的决策行为,同时通过在整个观测空间回归代价函数并进行优化,使得学习到的策略在未包含在示教中的状态上,做出最大可能回到示教状态的行为。在儿童机器人方案中,不管使用监督学习或逆强化学习中的何种方式,模仿学习方法由于学习目标在模仿专家行为,因此对专家示教的数量和质量都提出了极高的要求,在示教较少,质量不好的情况下,很难进行有效的学习。

 

作为一种人在回路中的学习方法,倾向性学习的核心是人参与交互的便捷性,其中包括尽可能少的交互次数、尽可能充分的对样本的利用、尽可能符合人习惯的倾向性信息获取方式。编程机器人在以上三种倾向性学习方式中,第一种方式虽然较为简单直观,但要求专家在机器人每一次决策时给出判断,效率较低;第二种方式的学习稳定性依赖每一次交互得到的倾向性建模好坏,对策略缺少合理的约束使得求解效率低下;第三种方式将倾向性学习问题转化为一种类似于对倾向性选择得到结果的模仿学习,具备模仿学习的高效性和稳定性,但不适用于以排序为呈现形式的倾向性数据。

 

综上所述,通过借助示教的强化学习和倾向性学习,我们可以部分解决示教和回报函数质量不高或难以提供情形下的学习问题,面对现实生活中的机器人操作技能学习问题,在已经充分建模的确定性环境如生产线中,科学机器人现有的基于学习的方法仍难以取代基于手工方式设计实现的传统意义下的机器人控制器。相关领域的研究目前仍处在实验室阶段,但由于学习方法能够明显减轻人工设计规则的压力,同时从原理上能够有效地应对动态环境与交互操作需求,基于学习的方法有极大的研究必要性,相关领域也在快速发展中。此份简述仅作为对其中两个小方向的部分总结,机器人操作技能学习领域仍有大量待解决的问题,值得进行更深入的探讨。



Tags:机器人   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
很多人一听到“机器人”这三个字脑中就会浮现“外形酷炫”、“功能强大”、“高端”等这些词,认为机器人就和科幻电影里的“终结者”一样高端炫酷。其实不然,在本文中,我们将探...【详细内容】
2022-10-12  Tags: 机器人  点击:(40)  评论:(0)  加入收藏
如果说乔布斯向全球科技行业亲身诠释了牛仔裤将成为最顶级的时尚;那顶着东西方不同面孔的黄仁勋和埃隆·马斯克则反复提醒着世界,黑皮夹克才是属于新时代的大佬 icon。...【详细内容】
2022-10-03  Tags: 机器人  点击:(35)  评论:(0)  加入收藏
一年前特斯拉人形机器人“擎天柱”作为彩蛋出现在特斯拉AI(人工智能)日上,震惊四座;一年之后,原型机亮相,具象了的擎天柱反而吊起了更多人的胃口:特斯拉为何要造机器人?技术到底行不行?...【详细内容】
2022-10-03  Tags: 机器人  点击:(16)  评论:(0)  加入收藏
据财联社10月1日消息,特斯拉CEO马斯克启动2022年AI日活动,人形机器人擎天柱Optimus原型机正式亮相。特斯拉展示了人形机器人在汽车工厂搬运箱、浇水植物、移动金属棒的视频。...【详细内容】
2022-10-01  Tags: 机器人  点击:(38)  评论:(0)  加入收藏
智东西(公众号:zhidxcom)作者 | 李水青编辑 | 心缘人形机器人,正在硬科技圈里掀起一阵新热潮。几天之后,特斯拉的首款人形机器人,代号Tesla Bot(特斯拉机器人)或Optimus(擎天柱),将在特...【详细内容】
2022-09-28  Tags: 机器人  点击:(29)  评论:(0)  加入收藏
《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的是一个跨平台 Python 异步聊天机器人框架—&mdash...【详细内容】
2022-09-14  Tags: 机器人  点击:(68)  评论:(0)  加入收藏
撰文 | 田小梦编辑 | 杨博丞题图 | IC Photo从去年雷军牵来一条“狗(CyberDog,艺名“铁蛋”)”,到今年领来一个“人(CyberOne,艺名“铁大”)”;从去年马斯克发布“特斯拉机器人”(Te...【详细内容】
2022-08-27  Tags: 机器人  点击:(43)  评论:(0)  加入收藏
今年早些时候,Google 推出了 AI Test Kitchen。通过这款 Android 应用,能够让用户和目前全球最先进的 AI 聊天机器人 LaMDA 2 进行交流。今天,Google 宣布该应用面向早期访问者...【详细内容】
2022-08-26  Tags: 机器人  点击:(92)  评论:(0)  加入收藏
(报告出品方/作者:浙商证券,程兵,邱世梁)1、小米发布CyberOne,全尺寸人形机器人商业化已在路上1.1、小米发布CyberOne,产品亮点突出未来可期小米发布业内首款全尺寸人形机器人 Cybe...【详细内容】
2022-08-26  Tags: 机器人  点击:(59)  评论:(0)  加入收藏
8月26日消息,近日,Facebook母公司Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在做客某博客节目时,被主持人问及有关表情僵硬、实际上是机器人的网络传言。扎克伯格在节...【详细内容】
2022-08-26  Tags: 机器人  点击:(63)  评论:(0)  加入收藏
▌简易百科推荐
【网易科技11月3日报道】日前,Google集中公布了Google AI目前取得的成果。Jeff Dean表示,Google是第一家发布和实施AI原则的大型公司,Google AI目前在3个变革性领域取得了成果...【详细内容】
2022-11-03    网易科技报道   Tags:AI   点击:(1)  评论:(0)  加入收藏
Jeff Dean 表示:“更多的进展即将到来。”欢迎关注“新浪科技”的微信订阅号:techsina 文/杜晨来源:硅星人(ID:guixingren123)近几年科技行业疯狂加注超大规模语言模型,一个最主...【详细内容】
2022-11-03  杜晨  硅星人  Tags:AI   点击:(4)  评论:(0)  加入收藏
有很长一段时间,AI(人工智能)这个词变得没那么让人兴奋了。人们已经躲不开它,但同时也发觉,无论是AI的技术演进还是商业应用,似乎都遇到了瓶颈。人们有很多年没再体验到AlphaGo那...【详细内容】
2022-10-26  品玩     Tags:AI   点击:(9)  评论:(0)  加入收藏
绘画,作为人类表达情感的一种方式,已经发展了数千年。但从今年开始,有些画师开始着急了,因为最新诞生的「AI 绘画」技术,大有替代人类的趋势。上月,美国科罗拉多州博览会举行了一...【详细内容】
2022-10-25  果粉俱乐部   网易号  Tags:AI   点击:(20)  评论:(0)  加入收藏
核心阅读日前,科技部等六部门发文,着力打造若干重大场景,拓展人工智能应用,高水平科研活动是其中之一。如今,我国人工智能技术快速发展,在数据获取、实验预测、结果分析等方面具有...【详细内容】
2022-10-20    人民日报  Tags:人工智能   点击:(6)  评论:(0)  加入收藏
封面图源:百度文心ERNIE-ViLG欢迎关注“新浪科技”的微信订阅号:techsina 文/世昕来源:刺猬公社(ID:ciweigongshe)AI正在改变这个世界。从2022年8月开始,AI再度成为舆论焦点。作...【详细内容】
2022-10-20  刺猬公社  新浪科技  Tags:AI   点击:(15)  评论:(0)  加入收藏
每年在Adobe Max上,Adobe都会展示它所谓的 "秘密",这些研发项目有可能会成为商业产品。今年也不例外,在会议正式开始前,Adobe预览了Project Clever Composites。它可以利用人工...【详细内容】
2022-10-19    cnBeta.COM   Tags:人工智能   点击:(10)  评论:(0)  加入收藏
来源:科技日报科技日报北京10月19日电 (记者刘霞)人工智能模型正用来预测人工智能研究的未来。据英国《新科学家》杂志网站17日报道,德国科学家利用人工智能模型,根据历史数据预...【详细内容】
2022-10-19    科技日报  Tags:AI   点击:(8)  评论:(0)  加入收藏
如果告诉你,傍晚的街道、昏黄的路灯、来往的行人,你会想到一幅什么样的画面?输入上述关键词后生成的画面 图源:盗梦师如果告诉你,上面这幅画是由AI自动生成的呢?“被人工智能卷到...【详细内容】
2022-10-18    时代财经  Tags:AI   点击:(16)  评论:(0)  加入收藏
图片来源:视觉中国【外眼看中国】◎本报记者 张梦然来源:科技日报根据技术监测网(Tech Monitor)对创新研究公司GreyB提供的最新专利申请的独家分析,中国边缘计算行业中的创新在...【详细内容】
2022-10-14    科技日报  Tags:边缘计算   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条