您的位置: 主页 > L北生活 >多任务智慧体的一大步:DeepMind一次搞定57种Atar >

多任务智慧体的一大步:DeepMind一次搞定57种Atar

发布时间:2020-06-29
多任务智慧体的一大步:DeepMind一次搞定57种Atar

多任务学习,也就是让单一个智慧体学习解决许多不同的问题,是人工智慧研究中的长期目标。最近,该领域取得了许多重大进展, DQN 等智慧体可以使用相同的演算法来玩不同的游戏,包括 Atari 游戏「Breakout」和「Pong」游戏。

这些算法以前为每项任务分别训练不同的智慧体。随着人工智慧研究深入到更多複杂的现实世界领域,构建单个通用智慧体来学习完成多个任务将变得至关紧要。然而,截至目前,这一任务依然是一个重大挑战。 DeepMind 近期的一项研究就提出了自己的重大改进。

本篇文章将研究介绍编译如下:

要做出能掌握多种不同任务的智慧体的难点之一在于,强化学习智慧体用来判断成功的奖励等级往往有所不同,导致他们将注意力集中在奖励更高的任务上。拿「Pong」游戏来举例,智慧体每一步有三种可能的奖励:-1、0、+1;但在吃豆人这个游戏里面就不同了,只要一出门,就可以吃到一连串的豆豆,因而智慧体可以在单个步骤中获得数百或数千分。即使单次获得的奖励的大小可以比较,但随着智慧体不断进化,奖励的频率可能会随着时间发生变化。这意味着,只要不被敌人抓到,吃豆的奖励明显比打乒乓球高得多。那幺,智慧体当然会沉迷吃豆,全然忘记自己还肩负学会其它得分不易游戏的重任。

「PopArt」

为了不放任智慧体乱来, DeepMind 推出了 PopArt 。这一技术可以让不同游戏的奖励尺度互相适应起来,无论每个特定游戏中可以得到的奖励有多大,智慧体都会认为每个游戏具有同等的学习价值。研究人员用 PopArt 的常态化方法调整了当前最先进的强化学习智慧体,使得一个 AI 可以学会多达 57 种不同的 Atari 游戏了,而且在这些游戏中的得分也超过了人类得分的中位数。

从广义上来说,深度学习依赖于神经网路权重更新,其输出不断逼近理想目标输出。神经网路用于深度强化学习中时也是如此。 PopArt  的工作原理,就是估算各种目标的平均值以及离散程度。然后,在更新权重之前,用这些统计数据,把更新网路权重时作为参考的目标一致化。这样一来,学习过程就会变得比较稳定,不容易因为奖励尺度之类的因素改变而发生改变。为了得到準确的估计,网路的输出可以透过反转一致化过程缩放到真实目标範围。

如果按照这样的想法直接去做的话,目标统计数据的每次更新都将改变所有未一致化的输出,包括那些已经很好的输出,这样会造成表现的下降。 DeepMind 研究人员的解决方案是,一旦统计数据有更新,他们就把网路向着相反的方向更新;而这种做法是可以準确地执行的。这意味着我们既可以获得尺度準确的更新的好处,又能保持以前学习到的输出不变。正是出于这些原因,该方法被命名为 PopArt :它在运行中既能精确地保持输出,又能自适应地重新缩放目标。

 PopArt 作为修剪奖励的替代方案

一般来说,研究人员会透过在强化学习演算法中使用奖励修剪来克服变化奖励範围的问题。这种修剪方法把太大的和太小的,都裁剪到 [-1, 1] 的区间里,粗略地一致化期望奖励。虽然这个方法会让学习过程变得容易,但它也会让学习目标发生变化。仍然以吃豆人举例,智慧体的目标就是吃豆和吃敌人,每颗豆 10 分,而每吃掉一个敌人会获得 200 到 1600 不等的分数。如果用奖励裁剪的话,吃豆和吃敌人可能就没区别了。这样训练出来的 AI ,很可能只吃豆,完全不去追敌人,毕竟吃豆容易。如下图所示。

多任务智慧体的一大步:DeepMind一次搞定57种Atar

当移除奖励裁剪方案,并使用 PopArt 一致化代替剪裁步骤之后,训练效果就截然不同了。智慧体会去追敌人了,得的分数也高了许多。

多任务智慧体的一大步:DeepMind一次搞定57种Atar
利用 PopArt 进行多任务深度强化学习

 DeepMind 将 PopArt 应用于 Importance-weighted Actor-Learner Architecture 上,这是 DeepMind 此前提出的、最常用的深度强化学习智慧体。在实验中,与没有使用 PopArt 的基线智慧体相比, PopArt 显着提升了智慧体的性能。不论仍然有奖励修剪和还是去除了奖励修剪, PopArt 智慧体游戏得分的中位数都超越了人类玩家得分的中位数。这远远高于有着奖励修剪的基线智慧体,而直接去掉了奖励修剪的基线智慧体完全无法达到有意义的性能,因为它无法有效地处理游戏中奖励规模的大範围变化。

多任务智慧体的一大步:DeepMind一次搞定57种Atar

 57 个 Atari 游戏上的中位数标準化性能。每一条线对应单一个智慧体使用同一个神经网路在所有游戏中得到的中位数性能。实线代表使用了奖励修剪的智慧体。虚线代表未使用奖励修剪的智慧体。

这是首次使用单个智慧体在这种多任务环境中实现超越人类的表现,表明 PopArt 可以为这样的开放性研究问题提供线索,即如何在没有手动修剪或缩放奖励的情况下平衡不同的目标函数。 PopArt 实现在学习的同时自动适应一致化的能力在应用 AI  到更加複杂的多模态领域时可能是很重要的,其中智慧体必须学会权衡多个不同的具备变化奖励的目标函数。

欢迎加入「Inside」Line 官方帐号,关注最新创业、科技、网路、工作讯息
多任务智慧体的一大步:DeepMind一次搞定57种Atar
多任务智慧体的一大步:DeepMind一次搞定57种Atar

猜你喜欢

推荐阅读

Google翻译全新改版!外观、翻译纪录、储存三大新功能
Google翻译全新改版!外观、翻译纪录、储存三大新功能
Google 翻译推出至今已十二年,从 9 种语言到现在已支援世界103 种语言,每年更翻译了 30 兆个句子,透过机器学习的演进,在语义辨识和词语排列上随着翻译系统更新越来越精準,相信大家也都深深有感。今日,Google 为了让使用者拥有更便利的翻译体验,重新设计翻译网页,除了外观和Google自家其他产品看起来更一致,同时优化功能介面,让浏览网页更轻鬆,过去用户可以上传文档来翻译整份文件,更

Google翻译全新改版!外观、翻译纪录、储存三大新功能

探险引领

2020-06-07 04:53
Google翻译变準了?期待未来穿戴式口译翻译机可以全球通行
Google翻译变準了?期待未来穿戴式口译翻译机可以全球通行
in translation, and it is the first translation to bring out to the Google Translate mobile and web apps. 9 月  27 日, Google 宣布把神经机器翻译系统应用在「中文翻译英文」中。神经机器翻译系统与过去片语机器翻译不同,不再是单字与词语拆开来理解,而是考量整段句子含义,即使难度极高

Google翻译变準了?期待未来穿戴式口译翻译机可以全球通行

科技要性

2020-06-07 04:53
Google翻译在Android上支援超过60种语言的离线翻译!
Google翻译在Android上支援超过60种语言的离线翻译!
Google 除了离线版本的地图服务之外,如今 Google 大神再加码推出 Google 翻译 V 2.6 版本,同样提供了离线服务, 还有能支援 60 种语言的翻译,对于常外出旅游的背包客和常出差的朋友们来说,这样的功能的确是蛮方便的。虽然已经有 60 种语言加入离线支援的行列,但是因为使用者还是得先在上线的情况下载好资料库才能在无网路连线下进行翻译,所以其实还是很佔手机空间的,不但光是中文语

Google翻译在Android上支援超过60种语言的离线翻译!

科技要性

2020-06-07 04:53
Google翻译更新 新增即时镜头翻译、一键翻译等功能
Google翻译更新 新增即时镜头翻译、一键翻译等功能
Google 翻译今日(5/12)推出新版本,主要包含三大更新。首先是支援繁体中文的即时镜头翻译(Word Lens),还有全新的一键翻译(Tap to Translate)功能,可在第三方应用程式中直接进行文字翻译。原本 Android 专属的 Google 离线翻译也正式支援 iOS 作业系统,无须连网就能翻译外国文字。本篇手机王网站整理出 Google 翻译的更新功能,以目前较新的 4.4

Google翻译更新 新增即时镜头翻译、一键翻译等功能

影视奇趣

2020-06-07 04:53
Google翻译更新!手机镜头对準英文,走到哪即时翻到哪
Google翻译更新!手机镜头对準英文,走到哪即时翻到哪
Google 今天宣布 Google 翻译推出三大重要更新!除了倍受台湾使用者期待的繁体中文即时镜头翻译,全新登场的一键翻译功能也将支援在第三方应用程式中直接进行文字翻译,大幅提升图像与文字翻译品质与体验!而 Google 离线翻译也正式登入 iOS 系统,协助更多使用者无论身在何地都能跨越语言藩篱、沟通零界限!透过镜头认识世界 即时镜头翻译正式支援中英互译广受使用者好评的即时镜头翻译正式加入中文

Google翻译更新!手机镜头对準英文,走到哪即时翻到哪

科技要性

2020-06-07 04:53
Google翻译里程碑:透过Zero
Google翻译里程碑:透过Zero
在过去的十年里,Google 翻译从最初仅支援几种语言发展到今天的 103 种,每天翻译的字词超过 1400 亿个。为了做到这一点,在任意两种语言之间,Google 翻译都要运行多个翻译系统,这带来巨大的计算成本。如今,许多领域都正在被神经网络技术颠覆。Google 确信他们可以利用神经网络进一步提升翻译品质。这要求 Google 重新思考 Google 翻译的演算法架构。今年九月,Google

Google翻译里程碑:透过Zero

探险引领

2020-06-07 04:54
相关推荐