进化强化学习是机器学习中令人兴奋的前沿,它结合了两种不同方法的优势:强化学习和进化计算。在进化强化学习中,智能代理通过积极探索不同的方法并获得成功表现的奖励来学习最佳策略。
这种创新范式将强化学习的试错学习与进化算法模仿自然选择的能力相结合,从而产生了一种强大的人工智能开发方法,有望在各个领域取得突破。
(相关资料图)
IntelligentComputing上发表了进化强化学习的综述文章。它阐明了进化计算与强化学习相结合的最新进展,并全面介绍了最先进的方法。
强化学习是机器学习的一个子领域,侧重于开发学习根据环境反馈做出决策的算法。成功强化学习的显着例子包括AlphaGo和最近踢足球的GoogleDeepMind机器人。
然而,强化学习仍然面临一些挑战,包括探索和开发权衡、奖励设计、泛化和信用分配。
进化计算模拟自然进化过程来解决问题,为强化学习问题提供了一种潜在的解决方案。通过结合这两种方法,研究人员创建了进化强化学习领域。
进化强化学习包括六个关键研究领域:
超参数优化:进化计算方法可用于超参数优化。也就是说,它们可以自动确定强化学习系统的最佳设置。由于涉及多种因素,例如算法的学习速度及其对未来奖励的倾向,手动发现最佳设置可能具有挑战性。此外,强化学习的性能在很大程度上取决于所采用的神经网络的架构,包括其层数和大小等因素。
策略搜索:策略搜索需要通过在神经网络的帮助下尝试不同的策略来找到完成任务的最佳方法。这些网络类似于强大的计算器,近似执行任务并利用深度学习的进步。由于存在多种任务执行可能性,搜索过程就像在一个巨大的迷宫中导航。随机梯度下降是训练神经网络和在迷宫中导航的常用方法。进化计算提供了基于进化策略、遗传算法和遗传编程的替代“神经进化”方法。这些方法可以确定用于强化学习的神经网络的最佳权重和其他属性。
探索:强化学习代理通过与环境交互来改进。探索太少会导致错误的决策,而探索太多则代价高昂。因此,在代理人发现良好行为的探索与代理人对已发现的良好行为的利用之间存在权衡。代理人通过为其行为添加随机性来进行探索。高效探索面临挑战:大量可能的行动、稀有和延迟的奖励、不可预测的环境和复杂的多智能体场景。进化计算方法通过促进竞争、合作和并行化来应对这些挑战。他们鼓励通过多样性和引导进化进行探索。
奖励塑造:奖励在强化学习中很重要,但它们通常很少见,而且代理人很难从中学习。奖励塑造增加了额外的细粒度奖励,以帮助代理更好地学习。然而,这些奖励可能会以意想不到的方式改变代理人的行为,要弄清楚这些额外奖励应该是什么、如何平衡它们以及如何在多个代理人之间分配信用通常需要手头任务的具体知识。为了应对奖励设计的挑战,研究人员使用进化计算来调整单代理和多代理强化学习中的额外奖励及其设置。
元强化学习:元强化学习旨在开发一种通用的学习算法,该算法可以利用以前的知识适应不同的任务。这种方法解决了传统强化学习中需要大量样本从头开始学习每个任务的问题。然而,使用元强化学习可以解决的任务的数量和复杂性仍然有限,并且与之相关的计算成本很高。因此,利用进化计算的模型不可知和高度并行特性是释放元强化学习全部潜力的一个有前途的方向,使其能够在现实场景中学习、泛化并提高计算效率。
多目标强化学习:在一些现实世界的问题中,存在多个相互冲突的目标。多目标进化算法可以平衡这些目标,并在没有解决方案看起来比其他解决方案更好时提出折衷方案。多目标强化学习方法可以分为两种类型:将多个目标组合成一个以找到单个最佳解决方案的方法和找到一系列好的解决方案的方法。相反,一些单一目标问题可以有效地分解为多个目标,使问题解决更容易。
进化强化学习可以解决复杂的强化学习任务,即使是在具有罕见或误导性奖励的场景中也是如此。但是,它需要大量的计算资源,因此计算成本很高。人们越来越需要更有效的方法,包括改进编码、采样、搜索运算符、算法框架和评估。
虽然进化强化学习在解决具有挑战性的强化学习问题方面已经显示出可喜的成果,但仍有可能取得进一步的进展。通过提高其计算效率并探索新的基准、平台和应用程序,进化强化学习领域的研究人员可以使进化方法更加有效和有用地解决复杂的强化学习任务。
进化强化学习是机器学习中令人兴奋的前沿,它结合了两种不同方法的优势:强化学习和进化计算。在进化强化学
5月22日盘中消息,9点38分台海核电(002366)触及涨停板。目前价格5 92,上涨10 04%。其所属行业其他电源设
5月21日下午,汤唯到达上海机场,从戛纳电影节归来的她状态好轻松,素颜状态太赞,她身穿绿色帽衫搭配牛仔
据中国驻英国大使馆网站5月22日消息,驻英国使馆发言人就英国首相苏纳克涉华错误言论答记者问。记者:据报
1、装满一车幸福让平安开道,抛弃一切烦恼,让快乐与你拥抱,存储所有温暖将寒冷赶跑,释放一生真情,让幸
1、区别如下:P7的抓地、操控性能方面要比P1出色。2、2、P7采用的是非对称花纹,胎面紧凑的中心花纹和强壮
这是湖人自2013年以来,第8次面临0-3落后的局面,没有一次成功翻盘。无论是施罗德还是拉塞尔都是如此,因为
第一,这件作品的技法极其完善,能够完全让你学到真正书法的传统技法,并且无论是笔法、字法和章法都属上乘
5月19日,2023年·中国西藏发展论坛中外嘉宾参访团一行前往西藏大学图书馆了解藏文古籍的抢救、保护和整理
5月18日,衡水市教育局印发《关于进一步开展学校安全隐患排查整治确保中高考安全工作方案》,即日起至6月
1、工程保险费取费标准按照不同的工程类别,工程保险费取费标准的计算也有所不同。2、住宅楼、综合性大楼、
1、宁波市解放南路小学始建于1951年,时名“宁波市灵湖小学”,后更名为“宁波市延庆巷小学”。2、1964...
1、宁波市聚鑫美电子商务有限公司于2016年04月12日成立。2、法定代表人程小梅,公司经营范围包括:服装、工
你们好,最近小未来发现有诸多的小伙伴们对于数字推理题目,数字推理题这个问题都颇为感兴趣的,今天小活为
1、因为地球是转动的,有些国家是晚上,而我们这里却是白天。2、白天时,我们面向太阳,地球的另一半背对着
1、随着国内房地产开发政策的变化,原有的“轻租重售”的房地产开发模式已经发生明显改变,住房租赁市场...
1、病情分析:无痛性大便出血极有可能是痔疮出血引起的,但需要进一步检查排除肠道炎症出血,或直肠息肉、
日前,我们在最新一批工信部申报目录中发现了别克新款昂科威PLUS的申报图,新车的外观设计变化较大,整体上
2023年大专报名时间及条件,继续教育网来告诉你来源:继续教育网浏览次数:255次发布时间:2023-02-1414:12摘要2023
在网吧花30元过夜、吃饭自带干粮、一天打卡诸多景点、喜欢独自旅行但又偏好陌生人社交……这些都是当下...
说是新英雄也不尽然,其实在漫画中毒液早就出现过了,只不过是与蜘蛛侠捆绑出现,甚至是一个凶残、暴虐还
北京拟规范帐篷露营地发展倡导绿色出游“无痕露营”
1、剥好的西柚可以隔夜,但要放入冰箱冷藏。2、西柚剥好后,若放置在低温环境中保存,第二天一般不会出现变
东契奇是2018届探花,艾顿是当届状元据ESPN名记TimMacMahon此前报道,独行侠对太阳中锋艾顿感兴趣,这很可
1、暴躁外皮是在完成一个任务后开启的红门里的怪物,当救完安亚后开启一个传送门去杀叛徒尼拉塞克不死,火
广告
X 关闭
广告
X 关闭