直接生成16秒(miǎo)高清视频 我國(guó)自研视频大模型在京发布
来源: 新(xīn)华网 作者: 发布时间: 2024-04-28

新(xīn)华社北京4月27日電(diàn)(记者魏梦佳)只需一段文(wén)字指令就能(néng)生成一段逼真视频,今年初,文(wén)生视频大模型Sora在全球人工智能(néng)业内外引发广泛关注。27日,2024中关村论坛年会上首次发布我國(guó)自研的具“長(cháng)时長(cháng)、高一致性、高动态性”特点的文(wén)生视频大模型Vidu。

记者从会上获悉,这一视频大模型由清华大學(xué)联合北京生数科(kē)技有(yǒu)限公司共同研发,可(kě)根据文(wén)本描述直接生成長(cháng)达16秒(miǎo)、分(fēn)辨率高达1080P的高清视频内容,不仅能(néng)模拟真实物(wù)理(lǐ)世界,还拥有(yǒu)丰富想象力。

清华大學(xué)人工智能(néng)研究院副院長(cháng)、生数科(kē)技首席科(kē)學(xué)家朱军说,当前國(guó)内视频大模型的生成视频时長(cháng)大多(duō)為(wèi)4秒(miǎo)左右,Vidu则可(kě)实现一次性生成16秒(miǎo)的视频时長(cháng)。同时,视频画面能(néng)保持连贯流畅,随着镜头移动,人物(wù)和场景在时间、空间中能(néng)保持高一致性。

在动态性方面,Vidu能(néng)生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能(néng)在一段画面里实现遠(yuǎn)景、近景、中景、特写等不同镜头的切换,包括能(néng)直接生成長(cháng)镜头、追焦、转场等效果。

“Vidu能(néng)模拟真实物(wù)理(lǐ)世界,生成细节复杂且符合物(wù)理(lǐ)规律的场景,例如合理(lǐ)的光影效果、细腻的人物(wù)表情等,还能(néng)创造出具有(yǒu)深度和复杂性的超现实主义内容。”朱军介绍,由于采用(yòng)“一步到位”的生成方式,视频片段从头到尾连续生成,没有(yǒu)明显的插帧现象。

此外,Vidu还可(kě)生成如熊猫、龙等形象。

据悉,Vidu的技术突破源于团队在机器學(xué)习和多(duō)模态大模型方面的長(cháng)期积累,其核心技术架构由团队早在2022年就提出并持续开展自主研发。“作為(wèi)一款通用(yòng)视觉模型,我们相信,Vidu未来能(néng)支持生成更加多(duō)样化、更長(cháng)时長(cháng)的视频内容,探索不同的生成任務(wù),其灵活架构也将兼容更广泛的模态,进一步拓展多(duō)模态通用(yòng)能(néng)力的边界。”朱军说。


地方动态

中國(guó)信息协会会長(cháng)王金平参加第七届数字中國(guó)建设峰会

全國(guó)大學(xué)生创新(xīn)发明大赛暨“英创工程”启动

赋能(néng)未来,共创数智化新(xīn)纪元:中國(guó)信息协会集团企业数字化工作委员会正式成立

中國(guó)信息协会第四届信息技术服務(wù)业应用(yòng)技能(néng)大赛新(xīn)闻发布会在京召开

  • 协会要闻
  • 通知公告