大模型“玩”《黑神话:悟空》比人类强吗

发布时间:2024-12-14 07:59:12 来源: sp20241214

原标题:大模型“玩”《黑神话:悟空》 比人类强吗

人工智能大模型下围棋已不是新鲜事,玩电脑游戏水平如何?不久前,淘天集团未来生活实验室算法工程师,尝试利用多模态大模型体验国产电脑游戏《黑神话:悟空》,探索大模型在特定场景中的能力边界,取得令人惊喜的效果。相关研究成果已上线论文预印本网站arXiv。

《黑神话:悟空》是典型的动作角色扮演类游戏。在当前大模型研究领域,有不少研究者选择将该类游戏作为研究平台,采用纯视觉输入、复杂动作输出的模式,测试大模型在特定场景下的性能表现。其中,纯视觉输入是指模型仅通过理解和分析游戏截图进行决策,而复杂动作输出则需要模型生成并执行复杂而连续的动作,如战斗场景中的精确操作。

想要让多模态大模型控制游戏角色,要克服两大困难。一是直接视觉输入的挑战。由于大模型所需的环境数据不一定能通过游戏API(应用程序编程接口)获取,因此对于那些需要深入理解游戏界面的大型游戏而言,学习从视觉输入中进行推理是一种更直接的策略,这给大模型带来不小挑战。二是面向动作任务的困难。在动作类游戏中,基于强化学习的框架仍然占主导地位,但在特定任务上需要大量训练时间,迁移到其他任务上泛化能力较差,表现往往不佳。

为突破上述瓶颈,在此次研究中,技术团队提出了一个名为VARP Agent(视觉动作角色扮演智能体)的新框架。它直接以游戏截图为输入,通过一组多模态大模型的推理,最终生成可以直接操作游戏角色的代码,每个动作都是由各种原子命令组合而成的序列。这些原子命令包括轻攻击、躲避、重攻击、恢复血量等。同时,该框架包含三个库:情境库、动作库和人类引导库。这些库可以被检索和更新,以存储用于自我学习和人类指导的密集知识。

技术团队定义了10个基本任务和2个挑战任务,其中75%的任务发生在战斗场景中。对于战斗任务,如果玩家角色击败了敌人,则任务成功;如果玩家角色被敌人击败,则任务失败。研究结果显示,该框架在基本任务和简单到中等难度的战斗中,胜率高达90%,但在面对高难度任务时,表现相对较差。总体来看,其整体水平仍不如高水平人类玩家,但研究成果可为设计应对更广泛挑战、更复杂的智能体提供参考。

(责编:罗知之、陈键)
选择用户
全部人员 全选 撤消
谢志刚
李岩
李海涛
谢志强
李亚琴
潘潇潇
杨亚男
高荣新
郑文静
金琳
张银波
张欣
陈曦
刘涛
王长青
高广柱
孙圆
行政专员
付雪枫
张雪莲
张璐
刘相群
张明璇
李静
孙静
王晨
赵夏
马洪亮
张兰
黄莉
李潍伊
常恩宁
侯昭宇
韩岩峰
冯亚红
林洋
陈静
刘婧
魏保国
唐彦秀
张楠
刘瑞萍
付严明
荣伶
马建国
邓爱青
系统管理员