学习兴国网免费收录优秀网站,为了共同发展免费收录需做上本站友情链接,星空网站目录平台的站长才会审核收录,不做链接提交一律不审核,为了避免浪费时间:收录必看!!!
  • 收录网站:126
  • 快审网站:10
  • 待审网站:96
  • 文章:25832
当前位置:主页 > 新闻速递 > “研究人员教机器所有人类想要什么”

“研究人员教机器所有人类想要什么”

发布日期:2021-06-24 03:12:01 浏览:

在电脑游戏中沿着赛道比赛时,要求优化速度。 车将踏板压在金属上……然后继续转动密集的小圆圈。 指令没有任何副本。 因为这是即兴的。

这个例子——对电脑游戏感兴趣,但对生活没那么感兴趣——是鼓励斯坦福大学研究者设定自主系统目标的更好方法之一。

计算机科学和电气工程助理教授dorsa sadigh和她的实验室将两种不同的做法结合在一起,把机器人的目标设定为一个过程,在模拟和现实世界的实验中,它比单独的任何一个部分都好。 研究人员于6月24日在机器人:科学与系统会议上介绍了这项工作。

“研究人员教机器所有人类想要什么”

将来,我希望世界上有越来越多的自治系统。 他们需要一点好的概念和坏的概念。 计算机科学研究生兼联合的主要作者andy palan说。 论文。 重要的是,如果将来想引进这些自律系统,就可以实现。

这个团队向机器人提供指导的新系统——称为奖励功能——是人类展示机器人在做什么的演示和顾客喜好调查的组合,其中人们回答了希望机器人如何表现的问题。

示威是有益的,但可能会很吵。 另一方面,优先级提供了最多的新闻,更确切地说,萨迪说。 我们的目标是完全利用这两个世界,更明智地结合来自这两个来源的数据,从而更好地了解人类优先的薪酬功能。

示威和调查

在以前的工作中,sadigh只关注喜好的调查。 它们要求人们比较剧本,比如自动驾驶车的两条轨迹。 虽然这样很有效,但生成下一个问题可能需要三分钟。 为许多复杂的系统编写命令还很慢,比如汽车。

为了加快这个速度,这个小组之后开发了一种生成多个问题的方法,可以从一个身体迅速连续回答,也可以分散在几个身体之间。 每次发生问题时,此更新都会将进程加快15到50倍。

新的组合系统从向机器人展示行为的人开始。 这可以为自主机器人提供很多新闻,但是机器人经常难以明确演示的部分非常重要。 人们并不总是希望机器人的行为像训练它的人。

我们不能总是举行示威。 即使我们可以,也不能依赖人们提供的新闻。 负责多问题调查的电气工程研究生erdem biyik说。 例如,迄今为止的研究表明,人们希望自动驾驶车不要太激进。

这就是调查进行的地方,例如,让客户可以询问机器人是否喜欢将手臂放在地上或放在天花板上。 在这项研究中,该小组采用了缓慢的单一问题方法,但计划在今后的工作中整合多项问题调查。

在测试中,小组发现将演示和调查结合起来比单纯指定喜好要快。 另外,与单独的演示相比,约80%的人喜欢在机器人使用组合系统进行训练时的性能。

这是更好地理解人们对机器人的期望和期望的一步,萨迪说。 我们的工作是让人们更容易、更有效地与人交流,教机器人。 我很兴奋能进一步开展这项工作,特别是在研究机器人和人类如何相互学习方面。

更好、更快、更智能地

根据采用组合方法的人的报告,系统很难理解其中的一点问题。 因此,可能需要选择看起来相同或与任务无关的两个场景。 基于优先级的学习中常见的问题。 研究者想用更简单的调查来处理这个缺点,这些调查也能迅速完成。

展望未来,对我来说创造奖励功能的正确方法不是百分之百,但实际上有一种组合可以应对人类输入的许多复杂情况。 palan说。 能够为自治系统设计激励功能是一个重要的大问题,并未受到学术界的重视。

这个团队还对系统的变化感兴趣。 这样,人们就可以在不同的场景中创建报酬功能。 例如,一个人可能希望在交通慢的时候开得更低调,在交通轻的时候开得更积极。

rss 2019论文的共同作者包括斯坦福大学的本科生gleb shevchuk和研究生nicholas c. landolfi。

这项研究由丰田研究所和生命未来研究所资助。

本文:《“研究人员教机器所有人类想要什么”

免责声明:学习兴国网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,星空网站目录平台不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。