人类正稳步走上通用人工智能持续演进的道路

源 / 新财网文 / 新财网 2026年02月10日 14时14分

　　你也许用过智能助手聊天，也见过人工智能（AI）生成精美图像，看过机器人跳舞……但你是否想过，驱动“聊天”“画画”“运动”的，究竟是三套独立的系统，还是同一个“智能大脑”的三种功能？日前，一项由北京智源人工智能研究院主导的重要科研突破在国际学术期刊《自然》发表，为实现真正“看得清、想得通、做得稳”的通用人工智能指明了新方向。这也是我国科研机构主导的大模型原创成果首次在《自然》正刊发表。

　　论文主要作者、北京智源人工智能研究院理事长、北京大学教授黄铁军指出，这项研究的核心思想非常简洁：以统一架构，让AI学会“接龙”。“无论是阅读文字、欣赏图片，还是观看视频、生成动作，在我们新开发的智源Emu模型的‘眼’里，都被转换成一套‘数字积木’。模型的任务，就是像我们玩歌词接龙游戏那样，始终预测‘下一块积木’应该如何出现。”

　　“这一思路有迹可循。早在2018年，美国OpenAI公司便基于‘预测下一词’的路线训练GPT模型，并于2022年推出ChatGPT，实现了语言大模型重大突破。”黄铁军团队推测，“预测下一词”的架构或许不仅适用于语言，也能拓展至多种模态，将图像、文本和视频数据在同一架构下统一训练，从而开发出“一脑多能”的多模态大模型。

　　团队成员介绍，此前全球范围内出现的此类模型，大多采用“专用工具组合”方式：理解语言与图片、生成图片与视频，均由各自独立的模型或工具各司其职。这类分工模式虽目的明确，但协同成本也随之增加。能否训练一个“通才”，采用统一架构处理各类数据、掌握多种技能？研究团队的Emu3模型给出了肯定答案。

　　Emu3就是这样一个“通才”型AI：当你给它一段文字描述时，它可以生成细节丰富、结构合理的图像；当你给它一张照片及相关问题时，它又能结合视觉信息与常识，进行精准的图像问答与理解；更进一步，它还能生成连续的视频片段——只需给出一个开头，模型便能一帧一帧地输出后续画面，甚至还能像连环画那样，为每段画面配上文字描述。

　　在升级版Emu3.5中，研究团队通过引入大规模长时序视频训练，使模型从“预测下一个词元”拓展到“预测下一个状态”，开始学习世界随时间演化的统计规律，为迈向更完整的“世界模型”探索了可行路径。

　　黄铁军表示，这意味着，多模态模型分离的“理解”和“生成”两类能力，首次在同一种简单而统一的建模范式下被系统性打通。

　　这把“统一建模”的钥匙，其潜力并不止于多模态内容生成。它可以延伸到物理世界，为机器人操作提供可行的动作序列设想，还可以解读脑信号等各种复杂数据。黄铁军介绍，“预测下一个”这一看似朴素的思想，本身蕴含着构建通用智能的基因。《自然》编辑评价，智源Emu3这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

　　黄铁军表示，这项成果证实了生成式人工智能技术路线的普适性：人类已经掌握了让不同智能在同一体系内涌现的方式，正稳步走上通用人工智能持续演进的道路。

　　（记者晋浩天）

相关文章

热门评论

即时资讯

编辑推荐