“怎么一转眼,我就变成了抖音上的剪纸?”
抖音春节道具“好运剪纸”
“我不一样了,我变成了漫画。”
加入抖音的唐嫣展示了同样带有浓浓年味的“新年萌漫画”道具。
“我的苹果还活着。”
抖音春节道具“万物来贺年”
这些形形色色的抖音道具给了抖音视频创作者无数的灵感:
还有古力娜扎、邓紫棋、蔡依林等明星也都玩得很开心:
春节期间,抖音这三大贺岁抖音道具帮助创作者拍摄了超过4000万条短视频。 每个道具的视频观看次数均超过10亿次,总播放量超过40亿次。
为了实现这些使人脸和物体发生变化的特效,我们依赖于字节跳动技术团队多样化的算法和工程能力。 今天技术范就为大家一一揭秘。
祝你好运剪纸:从漫画数据生成剪纸
如果想把手机摄像头拍摄的图像变成剪纸,就需要使用计算机视觉中常见的一类神经网络:GAN,生成对抗网络( )。
GAN 包含一个生成器和一个判别器。 生成器就像乙方,负责绘图; 鉴别员就像甲方一样,负责审核乙方的图纸。 甲方和乙方不断地互相“折磨”,经过多次草稿才创作出与目标最相似的作品。 GAN 整体已经学会了自动生成你想要的图片。
“好运剪纸”道具背后的技术团队参考了业界流行的各种GAN,以及可以生成漫画的网络,设计了一个生成剪纸的GAN。 这也是抖音上第一个实时全图GAN。 ,不仅遮住了人脸,整个画面都可以转变成剪纸的样子。
如果想要使用GAN生成剪纸场景,首先需要用大量剪纸场景的数据来训练它。 如何快速收集大量剪纸场景?
剪纸图片与普通照片的一大区别就是线条。 剪纸往往只有几条流畅的线条,清晰地区分了物体的各个部分; 但这在普通照片中是很难实现的。
于是,算法团队想到了类似的图片——漫画。 他们在开源漫画人像数据集中找到图片,通过变形、美妆、边缘检测、图像二值化、色调变化等基于传统图像算法的一系列操作,自动批量生成剪纸场景。
完成这些剪纸图像的训练后,GAN 可以自动将自然人像变成剪纸图像。
除了人像剪纸部分外,屏幕上的周边装饰和发光特效素材都是设计师绘制的,然后由交互工程师集成,以达到眨眼开始播放的效果。
由于抖音用户使用的手机性能不同,并且考虑到计算能力、内存大小等多维度限制,整个素材包,包括GAN、美术素材等,需要分层分发。
算法团队采用模型剪枝和蒸馏技术,在保证效果的同时尽量减少手机的算力和内存占用; 同时,缩小了美术素材的尺寸,合并了一些素材; 在道具运行过程中,减少了序列帧的预加载。 ,在操作完成后及时关闭占用大量算力的算法,并不断优化,保证在不同手机上流畅运行。
新年可爱漫画:缺少数据集? 我们DIY
《新年萌漫画》的道具效果也是借助GAN生成的。
如果想要实时将人物肖像变成漫画,首先需要将每一帧上的静态肖像变成漫画。
此前,“新年萌漫画”项目的算法团队曾制作过日本漫画道具的模型。 当时他们在顶级机器学习会议ICLR 2024上提到了U-GAT-IT的技术成果。
上图(a)列为原始输入照片,(e)列为U-GAT-IT生成的效果。
基于日本漫画道具的模型,为了提高生成效果,算法团队找了设计同学将一些图片素材绘制成漫画版本,作为一一对应的训练数据。
例如人物照片:
一位设计同学画的是这样的:
小猫的照片:
一位设计同学画的是这样的:
由于算法只需将头部变成卡通,所以上面绘制的图像数据只能绘制人物或动物的头部。
算法团队参考绘制的漫画数据的风格,不断分析并尝试优化最适合当前风格的GAN。
最后,需要调整GAN的损失函数(loss)。 在这个过程中,为了让生成的卡通效果更加美观,优化卡通人物的眼睛、鼻子、腮红等部位,设计同学也参与了参数调整过程。 。
这样就实现了一个可以把单帧图片变成漫画的GAN模型。 下一步是将其应用到实时动态视频中。
为了将视频实时变成漫画,算法团队想出了模型嫁接的方法。 在混合了不同优缺点的模型后,实现了今天部署在抖音的模型。
但模型训练完成后,他们发现了一个新问题:一旦角色张开嘴,生成的卡通嘴就非常难看。
事实证明,之前的训练数据中的人物基本上都是闭着嘴的,张着嘴的数据很少。 GAN 很难学会画张开的嘴。
因此,算法团队想出了“贴嘴”的策略——GAN无法绘制嘴,因此可以直接将绘制的嘴粘贴到生成的卡通肖像上。
他们收集了大量的张口数据,并将其绘制成卡通效果; 当算法运行时,他们利用面部关键点识别技术自动找到原始GAN生成的卡通上嘴巴的位置,然后调整绘制的嘴巴以匹配当前的嘴巴。 位置,直接粘贴即可。
例如,上面演示中的嘴是经过调整并粘贴到绘制的嘴上的。
上面是人像部分,而背景部分经过了双边滤波、边缘检测等自动处理,也可以变成漫画风格。
一切都是为了庆祝新年:从剪纸到动作效果
“万事如意新年快乐”的效果首先来自于字节跳动内部研发团队举办的一场黑客马拉松活动。 由研发和设计学生组成的团队在 48 小时内完成了原型。
想要让各种物体动起来,首先要从手机拍摄的屏幕上准确地“剪出”物体。
这样就依靠显着目标分割算法达到了图像抠图的效果。 首先分离图像中的物体,然后进行后处理以提高边缘分割精度。
除了生活中的各种常见物体之外,你会发现一些特殊的个体,比如表情符号,也是可以被分割的。
这是因为在训练显着物体分割模型时,工程师不仅使用了包含日常物体图片的开源数据集,还额外添加了2000张手绘图片数据集,这样无论是实物还是绘制的卡通图像,可以起到很好的分割效果。
分割后,我们使用字节跳动工程师自研的肢体安装点算法找到南瓜的重心,然后分析手臂和腿的方向。 找到图形边缘的4个点,就可以安装手臂和腿了。
之后,将设计师画的眼睛、鼻子、嘴巴放在中央,这样画面中的南瓜就自动变成了静态的南瓜小人了。
之后,对设计师制作的模板网格动画进行自适应匹配,调整四肢和五官,渲染材质和阴影效果,南瓜人就可以移动了。
在手机上的实际操作过程中,实际使用了两种模型:预览版使用运行速度更快、功耗更低的小模型; 当您按下拍摄按钮时,它将切换到具有更高分割质量和分辨率的模型。 高大的模特。 这样既保证了功耗,又保证了视频质量。
抖音热门道具背后字节跳动的智慧创意团队
上述抖音道具的开发者均来自字节跳动智能创作团队。 除了这些春节道具之外,他们还与抖音多媒体设计师团队合作打造了很多热门互动道具,其技术能力已经通过火山引擎实现商业化,可以为第三方厂商提供服务。
他们开发的热门道具包括“蓝线挑战”:
来自抖音用户“小李哥”
还有“潜艇游戏”:
来自抖音用户“三七喵美食记录”
用智能创意特效团队王先生的话说,这个技术团队最大的特点就是鼓励创新、鼓励自我驱动、重视跨团队沟通。
团队的技术同学并不是“没有感情的需求接收机器”。 相反,他们会凭借对前沿技术的深刻理解,主动提出各种互动道具的想法并推动其落地。
很多抖音道具的出现都是一个自下而上的过程。
一方面,设计师会根据重点节日、热门事件来规划一些道具的效果和互动玩法; 另一方面,智创特效团队的交互工程师也会一起集思广益,重点研究一些前沿技术的能力和特点。 规划一下这些技术能够在抖音上生成什么样的道具。
注意,这里的交互工程师不仅仅是传统意义上的“程序员”。 他们还具有艺术和设计背景,可以设计、建模和编写代码。 每当行业有新的算法突破时,交互工程师都会探索算法能力的边界和空间,思考它们可以用于什么样的交互。
图片来自官方博客
例如上图所示的人体分割算法。 部署在手机上后,交互工程师会测试人与手机的距离有多远才能被识别,算法的响应速度有多快,然后决定是用于快速舞蹈动作还是慢动作特殊动作。影响。 优越的。
“这样,单点能力就可以变成一个包含技术和玩法创意的矩阵,它可以成为一个工具箱。 然后,交互工程师和设计师可以将这些工具与各种现有算法结合起来,创建大量新道具。 怎么玩。”说道。
设计师和交互工程师提出新道具的想法后,他们将在内部创意审查会议上提出,并决定将哪些想法转化为现实。
如果实现一个想法的技术已经在内部SDK、引擎和内部创作工具中具备,那么产品经理、交互工程师和设计师就可以直接利用这些技术能力来设计新的风格、交互方式和交互玩法。 例如,设计不同风格的角色变装,设计不同的交互,如眨眼或挥手来激活特效。
如果目前不具备实现某个想法的技术能力,智造算法团队会专门针对该想法投入研发资源,训练新的算法模型。 之后,这些新算法可以运用在更多道具的创作中,让抖音用户永远有新奇的道具和特效可以使用。
“在我们团队中,如果一名研发学生熟悉前沿技术,有创作抖音道具的想法,他可以积极召集算法、交互工程、设计等多个部门的学生共同完成通过跨团队协作完成项目并将其呈现给抖音的商科学生。 并上线,”该团队说道。
他鼓励团队探索具有产品价值和用户价值的前沿技术。 “对于一些前沿的计算机视觉和深度学习相关技术,研发学生最了解。 因此,我们鼓励研发同学从自己的技术角度去观察这项技术的应用前景,积极配合产品经理,最终为产品做出贡献。 赋权。”
这也让抖音的特效工具更具竞争力。 据观察,在中国,抖音是最早上线的,拥有很多先进技术。 团队的创意和技术能力可以让亿万用户体验到新鲜有趣的特效玩法,同时降低视频内容创作门槛,增加优质内容的供给,丰富海量用户的生活。