直接生成16秒(miǎo)高清视频我國(guó)自研视频大模型在京发布-中國(guó)信息化•中國(guó)信息协会

直接生成16秒(miǎo)高清视频我國(guó)自研视频大模型在京发布

来源：新(xīn)华网作者：发布时间： 2024-04-28

新(xīn)华社北京4月27日電(diàn)（记者魏梦佳）只需一段文(wén)字指令就能(néng)生成一段逼真视频，今年初，文(wén)生视频大模型Sora在全球人工智能(néng)业内外引发广泛关注。27日，2024中关村论坛年会上首次发布我國(guó)自研的具“長(cháng)时長(cháng)、高一致性、高动态性”特点的文(wén)生视频大模型Vidu。

记者从会上获悉，这一视频大模型由清华大學(xué)联合北京生数科(kē)技有(yǒu)限公司共同研发，可(kě)根据文(wén)本描述直接生成長(cháng)达16秒(miǎo)、分(fēn)辨率高达1080P的高清视频内容，不仅能(néng)模拟真实物(wù)理(lǐ)世界，还拥有(yǒu)丰富想象力。

清华大學(xué)人工智能(néng)研究院副院長(cháng)、生数科(kē)技首席科(kē)學(xué)家朱军说，当前國(guó)内视频大模型的生成视频时長(cháng)大多(duō)為(wèi)4秒(miǎo)左右，Vidu则可(kě)实现一次性生成16秒(miǎo)的视频时長(cháng)。同时，视频画面能(néng)保持连贯流畅，随着镜头移动，人物(wù)和场景在时间、空间中能(néng)保持高一致性。

在动态性方面，Vidu能(néng)生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能(néng)在一段画面里实现遠(yuǎn)景、近景、中景、特写等不同镜头的切换，包括能(néng)直接生成長(cháng)镜头、追焦、转场等效果。

“Vidu能(néng)模拟真实物(wù)理(lǐ)世界，生成细节复杂且符合物(wù)理(lǐ)规律的场景，例如合理(lǐ)的光影效果、细腻的人物(wù)表情等，还能(néng)创造出具有(yǒu)深度和复杂性的超现实主义内容。”朱军介绍，由于采用(yòng)“一步到位”的生成方式，视频片段从头到尾连续生成，没有(yǒu)明显的插帧现象。

此外，Vidu还可(kě)生成如熊猫、龙等形象。

据悉，Vidu的技术突破源于团队在机器學(xué)习和多(duō)模态大模型方面的長(cháng)期积累，其核心技术架构由团队早在2022年就提出并持续开展自主研发。“作為(wèi)一款通用(yòng)视觉模型，我们相信，Vidu未来能(néng)支持生成更加多(duō)样化、更長(cháng)时長(cháng)的视频内容，探索不同的生成任務(wù)，其灵活架构也将兼容更广泛的模态，进一步拓展多(duō)模态通用(yòng)能(néng)力的边界。”朱军说。

地方动态

中國(guó)信息协会会長(cháng)王金平参加第七届数字中國(guó)建设峰会

全國(guó)大學(xué)生创新(xīn)发明大赛暨“英创工程”启动

赋能(néng)未来，共创数智化新(xīn)纪元：中國(guó)信息协会集团企业数字化工作委员会正式成立

中國(guó)信息协会第四届信息技术服務(wù)业应用(yòng)技能(néng)大赛新(xīn)闻发布会在京召开

协会要闻
通知公告


关注中國(guó)信息协会官微	关注中國(guó)信息化网官微