我国自研视频大模型在京发布
源 / 新财网    文 / 新财网    2024年04月28日 09时57分

  只需一段文字指令就能生成一段逼真视频,今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。27日,2024中关村论坛年会上首次发布我国自研的具“长时长、高一致性、高动态性”特点的文生视频大模型Vidu。

  记者从会上获悉,这一视频大模型由清华大学联合北京生数科技有限公司共同研发,可根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力。

  清华大学人工智能研究院副院长、生数科技首席科学家朱军说,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16秒的视频时长。同时,视频画面能保持连贯流畅,随着镜头移动,人物和场景在时间、空间中能保持高一致性。

  在动态性方面,Vidu能生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果。

  “Vidu能模拟真实物理世界,生成细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还能创造出具有深度和复杂性的超现实主义内容。”朱军介绍,由于采用“一步到位”的生成方式,视频片段从头到尾连续生成,没有明显的插帧现象。

  此外,Vidu还可生成如熊猫、龙等形象。

  据悉,Vidu的技术突破源于团队在机器学习和多模态大模型方面的长期积累,其核心技术架构由团队早在2022年就提出并持续开展自主研发。“作为一款通用视觉模型,我们相信,Vidu未来能支持生成更加多样化、更长时长的视频内容,探索不同的生成任务,其灵活架构也将兼容更广泛的模态,进一步拓展多模态通用能力的边界。”朱军说。

网友讨论
还可以输入 200 个字符
热门评论

建议及投诉热线010-85869906

广告刊登热线010-85862238

  • 关注官方微信

  • 关注官方微信

中国人民银行 | 中国银行业监督管理委员会 | 中国保险监督管理委员会 | 中国证券业监督管理委员会 | 路透社 | 华尔街日报 | FT中文网 | 中国互联网金融企业家俱乐部(ECIF) | 工业和信息化部域名信息备案管理系统
Copyright © 2008-2030 北京大白熊网络信息有限公司 京ICP备16038172号-1 all rights reserved本网站所刊部分稿件为网络转载,若有侵权请您及时联系我们,我们会及时删除,本网站对所转载内容不承担任何的责任,请网民对相关内容的真实性自行判断。
账号登录
记住密码
账号注册
账号注册

*昵       称

*输入密码

*确认密码

*姓       名

*电子邮箱

*国家地区

*省       份

*出生年份

*性       别  男          女

*从事职业

*从事行业

请您留下正确的联络方式,以便我们能够及时与您取得联系

*手机号码

填写您要订阅的邮件
  •   我愿意接受有关新财网的新功能或活动的信息
  •   我愿意接受有关其他网站和产品的新功能或活动的信息
  •   我愿意接受第三方服务供应商的特别优惠的信息