用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务 在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的复杂世界和大量开放的任务,成为近几年开放式学习研究的重要测试环境。 学... 人工智能# 强化学习 2年前1210
训练提速17%,第四范式开源强化学习研究框架,支持单、多智能体训练 OpenRL 是由第四范式强化学习团队开发的基于 PyTorch 的强化学习研究框架,支持单智能体、多智能体、自然语言等多种任务的训练。OpenRL 基于 PyTorch 进行开发,目标是为强化学习研... 人工智能# 强化学习 2年前360
南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法 近日,量化平台大家庭迎来了一位新成员,基于强化学习的开源平台: TradeMaster— 交易大师。 TradeMaster 由南洋理工大学开发,是一个涵盖四大金融市场,六大交易场景,15 种强化学习... 人工智能# 强化学习 2年前230
强化学习是否言过其实? 译者 | 李睿 审校 | 孙淑娟 可以想象一下,你正准备和朋友一起下国际象棋,但他并不是人类,而是一个不了解游戏规则的计算机程序。但这个应用程序却明白自己致力实现一个目标,就是在游戏中获胜。 因... 人工智能# 强化学习 3年前1110
清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉 Transformer模型自发布后,很快就成了自然语言处理和计算机视觉领域在有监督学习设置下的主流神经架构。 虽然Transformer的热潮已经开始席卷强化学习领域,但由于RL本身的特性,例如需要进... 人工智能# 强化学习 3年前360
强化学习中的Transformer发展到哪一步了?清华、北大等联合发布TransformRL综述 强化学习(RL)为顺序决策提供了一种数学形式,深度强化学习(DRL)近年来也取得巨大进展。然而,样本效率问题阻碍了在现实世界中广泛应用深度强化学习方法。为了解决这个问题,一种有效的机制是在 DRL 框... 人工智能# 强化学习 3年前220
首次引入!用因果推理做部分可观测强化学习 这篇《Fast Counterfactual Inference for History-Based Reinforcement Learning》提出一种快速因果推理算法,使得因果推理的计算复杂度大... 人工智能# 强化学习 3年前280
深度强化学习处理真实世界的自动驾驶 arXiv论文“Tackling Real-World Autonomous Driving using Deep Reinforcement Learning“,上传于2022年7月5日,作者来自意... 人工智能# 强化学习 3年前170
再掀强化学习变革!DeepMind提出「算法蒸馏」:可探索的预训练强化学习Transformer 在当下的序列建模任务上,Transformer可谓是最强大的神经网络架构,并且经过预训练的Transformer模型可以将prompt作为条件或上下文学习(in-context learning)适应... 人工智能# 强化学习 3年前240
从Transformer到扩散模型,一文了解基于序列建模的强化学习方法 大规模生成模型在近两年为自然语言处理甚至计算机视觉带来的巨大的突破。最近这股风潮也影响到了强化学习,尤其是离线强化学习(offline RL),诸如 Decision Transformer (DT... 人工智能# 强化学习 3年前410
离线强化学习新范式!京东科技&清华提出解耦式学习算法 离线强化学习算法 (Offline RL) 是当前强化学习最火的子方向之一。离线强化学习不与环境交互,旨在从以往记录的数据中学习目标策略。在面临数据收集昂贵或危险等问题,但是可能存在大量数据领域(例如... 人工智能# 强化学习 3年前360
强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类 谈到强化学习,很多研究人员的肾上腺素便不受控制地飙升!它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着十分重要的作用。 强化学习算法有很多不同的类型,但主要分为两类:「基于模型的」和... 人工智能# 强化学习 3年前280
西山居AI技术专家黄鸿波:游戏中强化学习与行为树融合实战 2022年8月6日-7日,AISummit 全球人工智能技术大会如期举办。在7日下午举办的《人工智能前沿探索》分论坛上,西山居AI技术专家黄鸿波带来了《游戏中强化学习与行为树融合实战》的主题... 人工智能# 强化学习 3年前330