当前位置：主页 > 新闻速递 > “研究人员教机器所有人类想要什么”

“研究人员教机器所有人类想要什么”

发布日期：2021-06-24 03:12:01 浏览：

在电脑游戏中沿着赛道比赛时，要求优化速度。车将踏板压在金属上……然后继续转动密集的小圆圈。指令没有任何副本。因为这是即兴的。

这个例子——对电脑游戏感兴趣，但对生活没那么感兴趣——是鼓励斯坦福大学研究者设定自主系统目标的更好方法之一。

计算机科学和电气工程助理教授dorsa sadigh和她的实验室将两种不同的做法结合在一起，把机器人的目标设定为一个过程，在模拟和现实世界的实验中，它比单独的任何一个部分都好。研究人员于6月24日在机器人:科学与系统会议上介绍了这项工作。

“研究人员教机器所有人类想要什么”

将来，我希望世界上有越来越多的自治系统。他们需要一点好的概念和坏的概念。计算机科学研究生兼联合的主要作者andy palan说。论文。重要的是，如果将来想引进这些自律系统，就可以实现。

这个团队向机器人提供指导的新系统——称为奖励功能——是人类展示机器人在做什么的演示和顾客喜好调查的组合，其中人们回答了希望机器人如何表现的问题。

示威是有益的，但可能会很吵。另一方面，优先级提供了最多的新闻，更确切地说，萨迪说。我们的目标是完全利用这两个世界，更明智地结合来自这两个来源的数据，从而更好地了解人类优先的薪酬功能。

示威和调查

在以前的工作中，sadigh只关注喜好的调查。它们要求人们比较剧本，比如自动驾驶车的两条轨迹。虽然这样很有效，但生成下一个问题可能需要三分钟。为许多复杂的系统编写命令还很慢，比如汽车。

为了加快这个速度，这个小组之后开发了一种生成多个问题的方法，可以从一个身体迅速连续回答，也可以分散在几个身体之间。每次发生问题时，此更新都会将进程加快15到50倍。

新的组合系统从向机器人展示行为的人开始。这可以为自主机器人提供很多新闻，但是机器人经常难以明确演示的部分非常重要。人们并不总是希望机器人的行为像训练它的人。

我们不能总是举行示威。即使我们可以，也不能依赖人们提供的新闻。负责多问题调查的电气工程研究生erdem biyik说。例如，迄今为止的研究表明，人们希望自动驾驶车不要太激进。

这就是调查进行的地方，例如，让客户可以询问机器人是否喜欢将手臂放在地上或放在天花板上。在这项研究中，该小组采用了缓慢的单一问题方法，但计划在今后的工作中整合多项问题调查。

在测试中，小组发现将演示和调查结合起来比单纯指定喜好要快。另外，与单独的演示相比，约80%的人喜欢在机器人使用组合系统进行训练时的性能。

这是更好地理解人们对机器人的期望和期望的一步，萨迪说。我们的工作是让人们更容易、更有效地与人交流，教机器人。我很兴奋能进一步开展这项工作，特别是在研究机器人和人类如何相互学习方面。

更好、更快、更智能地

根据采用组合方法的人的报告，系统很难理解其中的一点问题。因此，可能需要选择看起来相同或与任务无关的两个场景。基于优先级的学习中常见的问题。研究者想用更简单的调查来处理这个缺点，这些调查也能迅速完成。

展望未来，对我来说创造奖励功能的正确方法不是百分之百，但实际上有一种组合可以应对人类输入的许多复杂情况。 palan说。能够为自治系统设计激励功能是一个重要的大问题，并未受到学术界的重视。

这个团队还对系统的变化感兴趣。这样，人们就可以在不同的场景中创建报酬功能。例如，一个人可能希望在交通慢的时候开得更低调，在交通轻的时候开得更积极。

rss 2019论文的共同作者包括斯坦福大学的本科生gleb shevchuk和研究生nicholas c. landolfi。

这项研究由丰田研究所和生命未来研究所资助。

免责声明：星空分类目录网免费收录各个行业的优秀中文网站，提供网站分类目录检索与关键字搜索等服务，本篇文章是在网络上转载的，星空网站目录平台不为其真实性负责，只为传播网络信息为目的，非商业用途，如有异议请及时联系btr2031@163.com，本站将予以删除。

相关推荐