尊敬的客户,您好!我们是北京一家专注互联网技术服务公司,可以提供收录效果好,文章排名好的网站进行发文,发得多,各种关键词排名就多,流量越多越稳定,如果您有需要欢迎您前来资讯!可以随意添加图文和视频广告,助您的企业或者项目服务实现推广效果!如需合作欢迎请加微信
图片|.ai
© 原件来自
作者:罗辑、苏毅
责任编辑:程鑫
2024年伊始,科技圈没有什么比Sora的出现更令人兴奋的事情了。
就像 2023 年初带来的 LLM 创业热潮一样,Sora 的推出也将视频生成模型推到了风口浪尖。
科技巨头正在积极推销自己的产品,而初创公司也正在乘风破浪。
3月13日,AI视频模型公司爱视科技完成亿元A1轮融资;3月12日,圣数科技完成亿元A轮融资;3月1日,AI视频生成SaaS服务商“布尔向量”完成近千万元融资……
Sora 首次实现了 DiT 架构,将之前独立的扩散模型与大模型融为一体,翻开了视频生成模型历史的新篇章。
毫无疑问,一场新的科技风暴即将来临,一夜之间,国内大大小小的视频生成车型都在争夺“中国版Sora”的标签。
为了探寻这一问题的答案,“子象限”对国内现有的视频生成产品进行了实际体验,并结合公开资料、第三方测试机构数据等维度,对目前主流的视频生成模型进行了全面评测。
我们将从产品设计、实际测试结果、行业分析三个角度,全面探究谁能成为“中国版Sora”?
1.谁可以复制DIT的创新?
尽管Sora潮流才刚刚从大洋彼岸传入中国,但视频生成并不是一个新鲜话题。
而在此之前,这个赛道已经经历了几波革命,包括Gen-2、.0、,最终到达了生成效果更佳、持续时间更长、逻辑性更强、稳定性更高的“Sora”时刻。
“自我象限”整理了国内视频大牌企业及产品的基本情况。
▲图:国内外视频生成大模型公司名单,访问量统计截至2024年2月
在国外,、微软等“硅谷老钱”早已投入多模态视频生成的研究,去年发布了多模态大模型和视频大模型,让人们在直观的效果层面看到了多模态视频生成的可能性。
在中国,我们在多模态技术路径方向上看到了更多的可能性,包括有深厚技术积累的大公司百度,大模型独角兽公司智扑,以及圣数科技、智象未来等一批以多模态大模型为目标的创业公司。
扩散模型路线是 的主流路线,对效果的产生起到了至关重要的保障作用,因此即便是令人惊叹的Sora,也只是底层架构上的改造,而非彻底的颠覆。
这条路无论在国内还是国外都是最拥挤的,最先出现的是打造并开源AI扩散模型的AI公司,紧接着就是、Meta、等奋勇向前的AI公司。
回到国内,腾讯、阿里、字节跳动在早期几乎垄断了视频生成领域的研究,偶尔会抛出一个 demo 让人大吃一惊。但说到落地产品,初创公司显然更快一步,爱诗科技、右脑科技等公司都已经开始向用户开放。
DiT,又称为“Sora路线”,本质上就是将大模型的训练方法机制融入到扩散模型中,从Sora技术报告中呈现的结果来看,这一努力的奇迹或许会产生一个世界物理模拟装置的效果。
如今,Sora 的底层架构已经被研究透彻,其训练组件和技术也正在走向开源的路上。但这并不意味着在不久的将来每个人都会拥有一台 Sora。技术、数据、算力、训练规模都是一道坎。
近日,Sora核心团队负责人在采访中透露:“Sora目前还处于反馈获取阶段,还不是产品,短期内不会对外开放。”
从技术角度来看,爱视科技是国内为数不多从一开始就坚持走DiT路线的公司,其创始人王长虎在公开采访中表示,Sora的出现验证了爱视在视频生成大模型方向的正确性。为此,爱视科技定下了“3-6个月超越Sora”的目标,抓住机遇奋起直追。
2. 产品测试和用户“跑分”
在视频生成模型领域,国内的初创公司大致可以分为两类。
一类是以爱视科技()、圣数科技()、智享未来()为代表的自研基础大模型,专注于通用场景的视频生成工具。
另一类包括Vega AI、李白AI实验室、纱球科技、布尔向量、易影AI等,这一类数量更多,产品化程度更高,专注于解决某一类场景下的问题,更像是AIGC的在线编辑平台。
我们的测试评估包含三部分:使用门槛、产品基础功能、内容生成能力。
首先是使用门槛,我们测试的8款产品全部支持通过网站使用(很多初创产品需要通过使用才能使用),并且全部可以免费试用。
不过,只有爱视科技对免费试用次数没有限制,其他产品的试用次数限制为三至五次,超出试用次数后需要开通会员或者充值能量,价格从几元到几百元不等。
除此之外,其他产品在付费前基本都有功能限制,比如艺影AI只能生成2s、4s的视频,更长的视频需要付费。
所以综合考虑使用门槛,越是好用的产品越有优势,其他产品的使用门槛就比较平均了。
具体情况如下:
第二是产品的基本功能。
我们测试的 8 款产品中,除了神彩和,其他均支持将文本和图片生成视频。神彩和仅支持将图片生成视频,不支持将文本直接生成视频。
除这两家外,其他厂家的产品都比较成熟,但是产品功能差别也比较大。
其中,爱诗科技在基础功能之上还添加了丰富的辅助功能,例如除了正面的提示词之外,用户还可以输入负面的提示词,以要求生成的图片中不要出现某些元素。
在将图片转换为视频时,用户还可以输入提示词来控制输出效果、选择视频风格、调整长宽比等。
同类产品中,只有艺影AI具有负片提示、画面生成视频提示以及视频比例调整功能,并且只有它可以调整视频风格和画面比例。
大模型的技术水平决定了视频生成的质量,而产品能力则决定了大模型能否得到很好的利用并与应用场景结合。
对于视频生成产品来说,功能的丰富程度决定了用户上手的难易程度、对视频生成的掌控能力,最终影响到输出的结果和用户体验。
因此从产品完善度、功能完备度来看,整体处于领先,智象未来排名第二,易影AI排名第三,Vega AI排名第四。其中布尔向量相对来说是个例外,作为一款专注于跨境电商的视频生成工具,其功能更全面,在特定场景下也更易用,但在视频生成方面竞争力相对不足。
当然,除了基础功能之外,最核心的还是视频生成效果。所以第三部分就是视频内容生成能力的测试。
首先是视频生成时长,Sora 目前可以生成 60s 的视频,但国内创业公司的大视频生成模型时长大多集中在 2s 到 4s 左右,差距并不是特别大。
第二是根据提示词的内容进行表达的能力。
Sora 发布时,会输出一段视频,提示如下:美丽的白雪皑皑的东京街道熙熙攘攘。几个人正在享受美丽的雪天,并在附近的摊位购物。美丽的樱花花瓣和雪花在风中飘扬。在天空中飞舞。
▲Sora 根据这个提示生成视频(00:17)
基于此提示,我们还分别使用了爱视科技的Vega AI、右脑科技的Vega AI以及智象未来,生成了同样的视频。(由于圣数科技网站暂停试用,因此未纳入评测)
首先是来自爱石科技的。
4s的内容基本还原了提示词中提到的所有关键词,也体现出了“繁华”、“地摊”的氛围,镜头随着画面缓缓前移,视频整体风格保持一致,建筑、灯光、路边的树木和行人都比较逼真,画面没有明显的卡顿,除了人物走路的姿势略微不自然,没有任何元素的扭曲。
▲根据此提示生成的视频(00:04)
第二个是右脑技术。
同样的4s内容,同样的只有一个镜头,沿着人潮汹涌的街道缓缓前行。不过与华灯初亮的傍晚场景不同,选择的是白天。
相比于爱视科技,游戏中人物的脚步声显得更加混乱,有的人物在行走时从两尺变为三尺,然后消失不见,另外有的人物的生成也十分模糊,只有一个身影,并且还在不断变化。
▲Vega AI 根据此提示生成的视频(00:04)
接下来是 AI 艺英。
与那些有一定的镜头运动的视频不同,艺影AI生成的视频镜头是固定的,并且是这些视频中唯一一个选择正面视角的视频。
不过选择正面视角也给艺影AI带来一个问题,那就是无法很好地处理人物的面部表情,视频中两人相向而行的画面面部一直没有稳定下来,另外艺影AI还存在人物运动不明显的问题,因为生成的视频只有2秒时长。
▲艺影AI根据此提示生成的视频(00:02)
第四家是志象科技,采用的是4s视频,镜头固定,人物向前移动。类似的图像,除了同样存在人物生成和移动的问题外,对语义的理解就浅显得多。
比如提示中的“繁华”二字,在之前的视频中通过灯光、街边店铺、人群等表现出来,而这次选择的视频是一条雨天巷子,人迹罕至,整个画面显得冷清,而“逛街”一词在这段视频中并没有体现出来。
▲根据此提示生成的视频(00:04)
最后,它的官网还未开放公测,“自象限”已经进行了测试。
有两点很有意思,一是英文提示词的生成效果比中文提示词好很多。“自象限”先用中文提示词生成视频,得到的结果和提示词完全没关系。“把提示词改成英文,输出效果会大幅提升。”
▲图片:截图
从视频内容来看,生成的视频仅为3s,比其他产品短,清晰度也低于其他产品,但整体画面内容较为真实;从细节来看,生成的视频依然存在细节模糊失真、人物“漂移”、时隐时现等问题。
▲ 根据此提示生成的视频(00:03)
除了文胜视频外,还有两款仅支持“图片视频”的播放器——神彩和。不过这两款在图片视频方面表现并不好。
其中,神彩仅支持由单张图片生成“动态图”,并没有提示词功能,因此生成的视频文字变形,没有实际使用价值。
▲根据图片生成的视频(00:04)
相比之下,它更像是一个AIGC内容社区,图片生成、视频生成只是它的能力之一,但并不支持直接通过提示词生成视频,而是需要先在平台上通过提示词生成图片,然后再将图片转化为视频。
“Self-”通过提示句“一只柯基犬嘴里叼着一朵花散步”生成四张图片。
▲图片:截图
然后根据这四张图片,以“春天里奔跑的小狗”为提示词,生成一段视频。
▲根据图片生成的视频(00:04)
可以看到,这段视频还处于“动态画面”状态,离视频还差得很远。
除此之外,布尔向量未包含在这次比较中。
因为从产品体验上来说,布尔向量更像是一个AI编辑器,当我们输入一个提示词,系统会自动把这个提示词分解成多个脚本和故事板,然后撰写文案,输出多个视频。生成视频之后,用户可以对各个故事板进行编辑,更换视频,更改旁白和声音等。
▲图片:截图
然而其视频生成能力其实非常有限,既不能理解深层语义,也不能生成与提示词准确对应的视频内容。
以上测试的产品中,严格来说,只有和是专注于视频生成的大型模型,其他产品都是从早期的AIGC文本转图片和图片转图片应用演化而来。
▲图片:测试产品是否专注于视频生成
回过头来看,我们根据多次测试整理出了上述产品。
从对提示词的理解能力、画面的逻辑表达能力、画面细节的表达,到视频生成的质量、画面的一致性、稳定性、流畅性等。
测试了8款产品,经过综合对比发现,旗下爱视科技的综合能力相对较好,右脑科技排名第二,怡影AI排名第三,怡影AI排名第四。
最后从整个评测来看,从使用门槛到产品功能再到内容生成能力,中国创业公司的各个产品都各有优势。但总体来看,在中国创业公司中,爱诗科技的综合能力略高。中国最像Sora的产品。其次,这两者构成了中国视频生成模型的第一梯队。
接下来是易影AI,处于第二梯队(圣数科技因产品停售未纳入测评),最后是神彩、和视界,处于第三梯队。
以下是自我象限评估的摘要:
3. 使用生产力工具创建数据飞轮
事实上,通过对比迄今为止国内科技巨头与创业公司的产品发布速度,我们会发现,大公司的速度较慢,而创业公司的产品和用户规模增长速度更快。
李彦宏也曾提到:大公司做小创新,小公司能做大改变。
想要真正在激烈的竞争中突围,目前来看,除了技术路线的选择、产品本身的能力之外,产品使用场景、用户体验、行业应用等综合维度依然是视频生成模型竞争的关键。
从产品的使用场景上,正如前面提到的,一类公司专注于开发新的工具,而另一类公司则是将技术嵌入到某些成熟的产品中,这是两种完全不同的路线。
对于工具型产品来说,产品力的一个核心体现就是能否成为生产力工具。
我们简单回顾一下发展历程就会发现,V5是文胜图历史上一个关键的转折点,无论从效果、精准度、速度等各方面来看,V5已经正式从一个“玩具”转型为一个生产力工具,而这种产品能力的突破带来了海量的用户涌入,数据飞轮开始转动,效果也在日新月异。
▲图:网友制作的V1-V6生成效果对比,来源:X
对比“V5时刻”,我们发现视频生成模型也即将到达奇点。
通过真实场景的评测,我们发现生成的视频在主体一致性、运动平滑度、运动幅度、清晰度等方面更有价值。
在生产力工具的前提下,同样有两条产品线,一条是像公司实践的那样走专业工具路线,让专业的人更专业,一条是像Word那样,让普通人用起来也变得有生产力。
关于这个问题,Pika创始人郭文静在接受采访时表示,Pika不是一个拍片工具,而是一个日常消费的产品,思路更加清晰,相比于Pika的分级订阅商业模式,它在拥有更多用户、视频效果位居世界前列的同时,持续向全球免费开放,这是目前其他视频生成产品无法实现的。
正是因为其友好的用户态度和领先的视频生成效果,App 的飞轮开始转动,据第三方数据监测平台显示,目前用户规模与 Pika 处于同一水平,访问量远高于国内其他主流视频生成产品。(数据来源:)
▲、与 Pika 对比,2024 年 2 月产品页面数据
▲2月国内主要文化视频产品数据对比
▲国内主要文化视频产品数据走势
通过调研我们发现,爱势科技也在积极赞助/承办国内外各类AI大赛,推动技术快速落地的同时也加速实现技术普惠,在这个过程中,越来越多的用户也感受到了其产品优势。
此外,爱视科技拥有优秀的用户生态,每天在X上都会出现大量用户创作的视频内容,覆盖英语、中文、日语、西班牙语等多个地区,这是其他国产品牌完全不具备的优势,一定程度上也体现了市场的选择。