人类正稳步走上通用人工智能持续演进的道路
源 / 新财网    文 / 新财网    2026年02月10日 14时14分

  你也许用过智能助手聊天,也见过人工智能(AI)生成精美图像,看过机器人跳舞……但你是否想过,驱动“聊天”“画画”“运动”的,究竟是三套独立的系统,还是同一个“智能大脑”的三种功能?日前,一项由北京智源人工智能研究院主导的重要科研突破在国际学术期刊《自然》发表,为实现真正“看得清、想得通、做得稳”的通用人工智能指明了新方向。这也是我国科研机构主导的大模型原创成果首次在《自然》正刊发表。

  论文主要作者、北京智源人工智能研究院理事长、北京大学教授黄铁军指出,这项研究的核心思想非常简洁:以统一架构,让AI学会“接龙”。“无论是阅读文字、欣赏图片,还是观看视频、生成动作,在我们新开发的智源Emu模型的‘眼’里,都被转换成一套‘数字积木’。模型的任务,就是像我们玩歌词接龙游戏那样,始终预测‘下一块积木’应该如何出现。”

  “这一思路有迹可循。早在2018年,美国OpenAI公司便基于‘预测下一词’的路线训练GPT模型,并于2022年推出ChatGPT,实现了语言大模型重大突破。”黄铁军团队推测,“预测下一词”的架构或许不仅适用于语言,也能拓展至多种模态,将图像、文本和视频数据在同一架构下统一训练,从而开发出“一脑多能”的多模态大模型。

  团队成员介绍,此前全球范围内出现的此类模型,大多采用“专用工具组合”方式:理解语言与图片、生成图片与视频,均由各自独立的模型或工具各司其职。这类分工模式虽目的明确,但协同成本也随之增加。能否训练一个“通才”,采用统一架构处理各类数据、掌握多种技能?研究团队的Emu3模型给出了肯定答案。

  Emu3就是这样一个“通才”型AI:当你给它一段文字描述时,它可以生成细节丰富、结构合理的图像;当你给它一张照片及相关问题时,它又能结合视觉信息与常识,进行精准的图像问答与理解;更进一步,它还能生成连续的视频片段——只需给出一个开头,模型便能一帧一帧地输出后续画面,甚至还能像连环画那样,为每段画面配上文字描述。

  在升级版Emu3.5中,研究团队通过引入大规模长时序视频训练,使模型从“预测下一个词元”拓展到“预测下一个状态”,开始学习世界随时间演化的统计规律,为迈向更完整的“世界模型”探索了可行路径。

  黄铁军表示,这意味着,多模态模型分离的“理解”和“生成”两类能力,首次在同一种简单而统一的建模范式下被系统性打通。

  这把“统一建模”的钥匙,其潜力并不止于多模态内容生成。它可以延伸到物理世界,为机器人操作提供可行的动作序列设想,还可以解读脑信号等各种复杂数据。黄铁军介绍,“预测下一个”这一看似朴素的思想,本身蕴含着构建通用智能的基因。《自然》编辑评价,智源Emu3这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

  黄铁军表示,这项成果证实了生成式人工智能技术路线的普适性:人类已经掌握了让不同智能在同一体系内涌现的方式,正稳步走上通用人工智能持续演进的道路。

  (记者晋浩天)

网友讨论
还可以输入 200 个字符
热门评论

建议及投诉热线010-85869906

广告刊登热线010-85862238

  • 关注官方微信

  • 关注官方微信

中国人民银行 | 中国银行业监督管理委员会 | 中国保险监督管理委员会 | 中国证券业监督管理委员会 | 路透社 | 华尔街日报 | FT中文网 | 中国互联网金融企业家俱乐部(ECIF) | 工业和信息化部域名信息备案管理系统
Copyright © 2008-2030 北京大白熊网络信息有限公司 京ICP备16038172号-1 all rights reserved本网站所刊部分稿件为网络转载,若有侵权请您及时联系我们,我们会及时删除,本网站对所转载内容不承担任何的责任,请网民对相关内容的真实性自行判断。
账号登录
记住密码
账号注册
账号注册

*昵       称

*输入密码

*确认密码

*姓       名

*电子邮箱

*国家地区

*省       份

*出生年份

*性       别  男          女

*从事职业

*从事行业

请您留下正确的联络方式,以便我们能够及时与您取得联系

*手机号码

填写您要订阅的邮件
  •   我愿意接受有关新财网的新功能或活动的信息
  •   我愿意接受有关其他网站和产品的新功能或活动的信息
  •   我愿意接受第三方服务供应商的特别优惠的信息