热点资讯
软件开发公司 中国版Sora来了!清华打造!背后创业公司已融资数亿元
发布日期:2024-07-29 16:20 点击次数:134
时隔两个月,清华团队打造了一个中国版的Sora视频大模子。
4月27日,在中关村论坛改日东说念主工智能前卫论坛上,中国首个万古长、高一致性、高动态性视频大模子Vidu负责发布。这一模子由清华大学和大模子创业公司生数科技结伴发布,不错一键生成长度达16秒、分别率为1080P的高清视频执行。
证券时报记者独家获悉,清华大学东说念主工智能商议院副院长、生数科技首席科学家朱军在Vidu发布后发声暗示:“Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚抓,在实验室架构上着花截至。”据先容,这亦然自OpenAI发布Sora以后,各人领先获取首要冲突的视频大模子。
Sora发布后,行业内一直有团队声称要追逐和复现Sora,而Vidu团队用两个月的时间领先跑出来。记者梳剪发现,生数科技在多模态大模子界限照旧有较深的鸠合,亦然当今多模态大模子赛说念估值最高的初创公司之一。当今公司已完成三轮融资,融资额达数亿元东说念主民币,投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等一众机构。
软件开发对标Sora,生成视频连贯高清
“画室里的一艘船驶向镜头”,只需要输入这么一句肤浅的辅导,即不错生成截至传神、镜头连贯的一段视频。在生数科技发布的Vidu模子生成视频样片中,视频的合座质感的确可与Sora相失色。
据生数科技先容,Vidu模子经受团队原创的Diffusion与Transformer交融的架构U-ViT,相沿一键生成长达16秒、分别率高达1080P的高清视频执行。“U-ViT架构早在2022年9月就由团队建议,早于Sora经受的DiT架构,是各人首个Diffusion与Transformer交融的架构。”生数科技暗示。
记者注释到,本年3月生数科技完成新一轮融资后,公司就公开暗示,固然Sora的出现标明好意思国在多模态大模子界限具有卓绝性,“但中国也并非整个从零开动的阶段”。据先容,朱军在2023年1月就建议了基于Transformer的多模态扩散大模子UniDiffuser,经受了U-ViT,该架构与Sora的架构路子统斡旋致,区别在于UniDiffuser主要愚弄于图像生成任务,但也不错以此为基础进行视频任务的拓展。
恰是基于在机器学习和多模态大模子的恒久鸠合,团队才粗略在短短的两个月时间里冲突了长视频暗示与护士的多项要道时候,奏效研发推出Vidu视频大模子。朱军在Vidu模子发布现场暗示,Vidu主要有以下方面的特色与上风:
一是模拟信得过物理天下,不错生成复杂、细节丰富的场景,光影截至与东说念主物容貌皆粗略适当信得过的物理法例。
二是富余思象力,不错捏造场景以及思象超现实意见的画面。
上期龙头05,龙头最近10期奇偶比为5:5,综合分析,软件开发价格本期龙头参考:06。
三是具有多镜头话语,不再局限于固定镜头,粗略在解雇主体一致性的情况下终了出路、近景、中景、特写等不同镜头的动态切换,还不错终了长镜头、追焦等截至。
四是有出色的视频时长,能相沿16秒长度的视频生成,保抓镜头和主体的连贯一致。
五是能相连中国元素,不错更好地相连生成熊猫、龙等富余中国文化特色的形象。
Vidu生成的龙、熊猫等中国文化元素视频
背后团队来自清华,已融资数亿元
Vidu的背后,是一家来自清华的明星创业公司生数科技。
公开辛苦显现,生数科技成立于2023年3月,中枢成员来自清华大学东说念主工智能商议院,起劲于于自主研发天下卓绝的可控多模态通用大模子。公司的CEO本硕就读于清华大学缱绻机系的唐家渝,首席科学家由清华东说念主工智能商议院副院长朱军担任,CTO鲍凡则是清华大学缱绻机系博士生、朱军熏陶的课题构成员,恒久缓和扩散模子界限商议。
记者注释到,本年3月,唐家渝曾在调换会上向媒体暗示,本年内公司的大模子一定能达到Sora当今版块的截至,“但很难说是三个月照旧半年”。但是,Vidu却提前交出了一份令东说念主惊艳的考卷,这主要收货于团队是国内最早布局多模态大模子的团队之一,多年以来在这一界限变成了深厚的鸠合。
据唐家渝先容,生数科技当今取舍模子层和愚弄层两条路步辇儿的口头。一方面,构建隐敝文本、图像、视频、3D 模子等多模态才调的底层通用大模子,面向B端提供模子功绩才调;另一方面,面向图像生成、视频生成等场景打造垂类愚弄,按照订阅等体式收费,愚弄标的主淌若游戏制作、影视后期等执行创作场景。
记者梳剪发现,生数科技自成立以来就备受成本缓和。天眼查数据显现,生数科技当今共完成3轮融资。2023年6月,完成近亿元东说念主民币天神轮融资,投资方包括蚂联接团、BV百度风投、卓源亚洲、卓源成本;2023年8月,完成数千万东说念主民币天神+轮融资,投资方为锦秋基金;2024年3月,完成数亿元东说念主民币A轮融资,投资方除了启明创投、达泰成本、智谱AI等新机构之外,还有BV百度风投、卓源亚洲两个老鼓励。
在三轮融资臆测数亿元东说念主民币的成本加抓下软件开发公司,生数科技已成为当今国内多模态大模子中估值最高的初创公司之一。生数科技暗示,Vidu的问世不仅是U-ViT交融架构在大限制视觉任务中的又一次奏效考据,也代表了生数科技在多模态原生大模子界限的抓续改造才协调卓绝性。