争夺“中国版《空之谷》”的黄金演员、编剧或面临“失业危机”
作者:IT时报记者 沈逸斌
郝俊辉、孙燕编辑
巴黎奥运会正如火如荼地进行着,视频大片模特界同样热闹非凡,众多国内“选手”首次亮相,争夺被称为“中国版Sora”的金牌。
7月,声数科技打造的视频模型Vidu上线,向用户开放文字生成视频、图片生成视频两大功能;智扑AI正式发布视频生成模型“青影”;商汤科技面向C端用户发布首个可控人物视频生成模型维米;阿里达摩院上线一站式AI视频创作平台“迅光”;快手科灵AI正式上线网页版并开源可控人像视频生成框架……
AI视频大模型的惊人“增速”不仅在资本市场引发热议,对影视行业也产生了不小的影响。尤其是在抖音、快手、央视相继推出AI制作的短剧后,演员、编剧也开始面临“失业危机”。
然而,科技产品要从实验室走向市场,能力至关重要。AI视频模型能否实现生成内容的高质量连贯性和一致性是其未来发展的关键。
与 Sora 一起渡河
虽然Sora还没有正式面向大众开放,但是提到 ,Sora是一个无法回避的话题。
“目前国内视频生成大模型的技术路径和Sora基本一致,但各家公司都会加入自己的(技术)。”AI联合创始人李博杰对《IT时报》记者表示,视频的本质可以看作是多幅画面的连续排列和投影。在文字和图片的大模型中,最为人熟知的技术是扩散模型,它可以根据输入的文字描述,得到数据的内部结构和分布规律,从而生成单幅画面。
但扩散模型在语义和数据的联系上有局限性,因此模型需要将不同的数据相互关联,通过关联生成大量的图片,并表达帧与帧之间的关系,最后通过编码器压缩成视频。
李伯杰表示,目前视频生成模型的算力可以达到.5,但还是没有国内很多公司都有的万卡集群那么大。因此在算力有限的情况下,决定视频质量的关键还是取决于数据的质量和数量,而画面的连贯性也可以通过大规模数据训练来实现。
但由于关键数据获取困难、原始世界数据被越来越多的AI生成内容“污染”,以及大部分视频数据缺乏相应描述文字或描述质量较低,国内视频生成大模型开始在模型结构、组件等方面寻求技术突破,以保证一致性。
以智扑青影为例,智扑青影相关负责人周文(化名)告诉《IT时报》记者,为解决内容连续性问题,智扑自研的三维变分自编码器结构(3D VAE)将原始视频空间压缩至2%,降低了视频扩散生成模型的训练成本和难度。
在模型结构上,以因果三维卷积(3D)作为主要模型构件,并移除了自编码器中常用的注意力模块,使得模型具备了迁移和使用不同分辨率的能力。同时在时间维度上,因果卷积的形式也使得模型具备了从前到后视频编解码的序列独立性,便于通过微调泛化到更高帧率、更长时间。
与传统做法不同,智朴清影放弃了交叉注意力机制( )模块,采用了文本、时间、空间三个维度融合的架构,在输入阶段( )对文本和视频进行向量化,然后直接将不同模态的向量连接起来形成单一特征向量,输入到下游任务中。
但两种数据结构的特征空间差别较大,此时需要通过专家自适应层归一化技术( )分别对文本和视频模态进行处理,并利用扩散模型中的时间步长信息将视觉信息与语义信息进行对齐。
一个人也可以拍一部剧
影视行业最容易受到视频大生成模型大规模推出的影响。
“不可否认,大视频生成模式赋予了我们影视发展新的可能性。”上海大学温哥华电影学院副院长陈晓达对《IT时报》记者表示,AI生成不仅可以减少电影制作、场景搭建、化妆设计等成本和时间,还可以降低准入门槛,一个人就可以完成一部剧的拍摄。
6月28日,由中央广播电视总台影视纪录片中心出品的《英雄》《爱无止境》《奇幻商店》三部AI短剧在央视视频上线。此后,博纳影业集团与抖音合作推出AI科幻短剧《三星堆:未来启示录》,快手也借助科灵AI推出AI奇幻短剧《山海镜:破浪会有时》。截至8月8日,抖音和快手打造的两部AI短剧在各自平台上累计播放量5504.7万和5243.2万次。
从这些AI短剧中我们可以看到,人物的面部特征自始至终保持一致。一般来说,单纯使用文字描述生成视频,每次生成的结果都会有所不同。那么,这些短剧的一致性是如何实现的呢?
李博杰分析称,文森特视频的核心模型可能采用的是“辅助”神经网络模型结构,通过在模型中添加辅助模块,形成“锁定”的副本和可训练的副本。简单来说,就是在完成人物形象建模后,对其进行“锁定”,然后再利用可训练的副本对视频场景、动作等进行变换。
正是因为“锁定”,视频中的人物很难做出大动作。经过实际测试,陈晓达告诉记者,生成的每一帧画面都是一个“开盲盒”的过程,没有办法保证生成的内容符合标准。因此只能花大量时间不断生成,挑选可用的画面拼凑出一部短剧。“你会发现宣传片都是3分钟以内的短剧,如果想靠AI生成拼凑出一部完整的长视频作品,目前还做不到。”
《山海传奇》导演陈坤也认为,在角色连贯性、场景连贯性、人物表演、动作互动等AI技术尚未达到高度可控和精准的前提下,AI影视作品并不适合呈现特别复杂的故事,容易分散观众的注意力。
智扑AI CEO张鹏在接受媒体采访时也表示,大视频生成模型的商业化还处于非常早期的阶段,在对物理世界规律的理解、高分辨率、镜头运动的连续性、时长等方面,生成效果还有很大的提升空间。
“三不”人工智能电影威胁好莱坞
市场有“嗅觉”,尽管目前的生成效果还不够完美,但视频生成大模型赛道的火爆程度不言而喻。启明创投管理合伙人周志峰在2024世界人工智能大会上预测,AI视频生成技术将在三年内迎来爆发。投宝研究院数据显示,到2026年,中国AI视频生成行业市场规模预计将达到92.79亿元。
具体来说,快手课灵上线三个多月后,申请体验的用户已突破70万,甚至出现了排队等待申请的现象。累计生成的视频作品数量已达700万部;爱诗科技打造的大模型,在国内上线88天,已达到1000万部视频生成。这也是央视开始制作AI短剧的原因之一。
当没有演员、没有场景、没有绿幕效果的AI影视剧进入市场,演员、编剧的危机就来了。博纳影业集团影视制作副总经理曲吉小江在欢乐短剧创新论坛上表示,将为AI短剧中塑造的角色打造出热门的个人IP。
面对人工智能的“威胁”,美国编剧工会和美国演员工会去年夏天联合发起罢工,导致好莱坞陷入长达数月的停摆,影视制作数量大幅减少。据外媒报道,今年情况并未好转,部分演员被要求同意在与华纳兄弟的合同中使用“数字合成图像”,如果拒绝,他们可能会失去工作机会。
从目前国内视频生成模型的能力来看,制作动态海报、广告短片、特效动画等是没有问题的,应用场景还在不断拓展。陈晓达认为,技术本身固然重要,但首先用户要掌握标准化的工业流程,新技术才能长远落地。“AI技术短时间内无法取代演员、编剧的地位,但会用AI技术的人很快就能取代他们。”
针对此,上海大学温哥华电影学院于去年2月开始开设AI电影课程,一方面让学生学习利用AI提高影视制作效率、节省成本;另一方面也是为了跟上时代潮流,不被“取代”。
策划/季嘉英
图片/青影AI、抖音、快手、科灵AI、东方IC
来源:IT时报官方账号
结尾