北京华网天下

抖音超900万人使用的“卡通脸”特效技术曝光

2024-01-20

来源：网络整理

说到特效玩法，抖音“包办一切”的能力向来有目共睹。近日，一款“卡通脸”特效备受关注。无论男女老少，使用此特效后，都会像迪士尼动画中的人物一样聪明可爱。 “卡通脸”一经推出，就在抖音上迅速发酵，深受用户喜爱。 “一键变身高大甜美卡通脸”、“抖音上的逃亡公主都来了”、“卡通脸造型秀出你的宝贝”、“公主撒糖手势舞”等王子相关热点《捕捉童话魔法失败的瞬间》和《捕捉童话魔法失败的瞬间》都在不断壮大，其中《抖音的逃亡公主都来了》和《捕捉童话魔法失败的瞬间》更是登上了抖音全国热榜。该特效的用户数量已超过900万。

“卡通脸”是一种3D风格的特效。这类特效开发的难点主要在于CG训练数据难以获取、智能表情还原困难、三维皮肤纹理和光影难以实现、立体效果难以实现等。夸张且程式化的面部特征。变形GAN在很多方面都不容易学习。对此，字节跳动智造团队重点在3D风格化方向进行突破性优化，不仅解决了上述所有问题，还开发出了一套通用的技术方案。

“卡通脸”背后的研发流程创新

过去，一个完整的3D风格化开发流程分为以下几个模块：

收集一些原创风格图片->训练大模型->生成配对数据->手动选择可用的配对数据+设计师P图优化->训练p2p小模型，然后重复。

传统研发流程的问题非常明显：迭代周期长、设计师参与度弱、不易积累和复用。

在“卡通脸”特效的研发中，字节跳动智造团队采用了创新的研发流程：

从设计师制作目标风格效果开始，设计师根据算法约定的要求提供一些3D美术素材，然后字节跳动智能创作团队使用DCC软件批量渲染大量多样化的CG数据。在渲染过程中，技术团队首次介绍了当前的技术。最流行的AIGC技术对数据进行增强，然后使用GAN合成训练所需的配对数据，最后使用自研的变形模型训练得到最终的效果。

字节跳动智造团队“卡通脸”研发流程图

从流程环节可以看出，这种方法大大减少了迭代周期，提高了自动化程度，让设计人员有更高的参与度。实践表明，创新的工程环节将迭代周期从6个月缩短至1个月，解决方案也更容易沉淀和复用。

“卡通脸”特效是如何设计的？

如今，社交媒体上的变身特效越来越多，人们也越来越注重特效的美观性和准确性。为了让用户更好地达到风格化变换的效果，抖音特效的设计者们经过精心研究，结合流行的动画风格，创新地设计了一套卡通人脸特效，让用户体验到动画灵活的感觉。人物风格，同时满足用户变得更美、更帅的需求。

抖音特效设计师对市场上现有的变换特效进行了深入研究，发现现有特效存在风格不足、表情不够夸张、光影效果不够真实等问题。因此，抖音的特效设计师根据国内审美重新设计了卡通脸的风格，夸大了男女的面部比例，将其重构为圆脸可爱、五官灵动的“女孩”和硬朗长长的“男孩”。面孔和英俊的五官。在这个过程中，设计师保留了用户自己的头发，增强了头发的蓬松度和光泽度，使其与卡通脸的融合更加自然。卡通质感的皮肤还融入了用户自身皮肤的细节，使得特效更加自然。用户特征更加个性化。

此外，抖音特效设计师还定义了不同光线下的光影质感，满足复杂场景下的灯光还原需求，让卡通脸更加立体自然，融入到日常自拍中，毫无任何顾虑。违和感。最后，设计师还创作了夸张的符号面部表情，利用面部捕捉技术生成数字人资产的面部表情CG数据，并不断改进训练数据和算法，产生能够更生动地展现用户个性的表情效果。

自建CG合成数据流，高质量训练数据可复用

3D风格特效的训练数据来源依赖于高质量的CG渲染数据，对数据分布的多样性有较高的要求。同时，3D资产的手动建模也是一个非常耗费人力的过程，并且可重用性也不足。往往一个项目花费了昂贵的人力和时间来制作一批3D资产，而这些资产在项目完成后就被完全废弃了。

此次，字节跳动智能创作团队打造了一套通用且易于扩展的CG合成数据工作流程。

字节跳动智造团队CG合成数据流流程图

该合成数据流的工作流程如下：

1.通过数字资产的程序化生成、程序化捏脸、骨骼绑定、体重调整等，建立逼真的数字人模型资产库。

多元化3D数字资产

2.通过构建美元模板，以美元导入头发、皮毛、头部模型、服装、表情系数等资产。

皮肤图示例

虹膜图示例

3.通过PDG随机组合资产、摄像机角度、光照环境等。利用PDG对的控制来精确控制数据分布。

自动化 PDG 节点图

由于研发过程需要频繁提供大量的渲染数据进行效果迭代，这需要大量的算力成本和渲染等待时间。此前，团队斥资数百万外部农场对抖音“魔幻变身”特效进行数据渲染。对于“卡通脸”特效，团队依托字节跳动云平台火山引擎坚实的基础设施，大幅降低算力成本。

字节跳动智能创作团队参考影视行业流程，打造了自主研发的渲染农场平台。它可以将离线任务拆分到多个渲染机上并行处理。通过镜像平台进行镜像托管、资源池平台进行资源申请和释放、cpu/gpu集群进行容器动态扩缩容、利用nas进行资产管理，渲染农场一键扩容数千个渲染节点。高效计算的能力。

基于此，字节跳动智创团队定制了单任务处理逻辑，包括预处理、引擎渲染、后处理等步骤。并根据需要随时动态扩展/收缩集群大小，最大限度地利用计算资源。

为了进一步提高效率，让设计师更方便地参与效果优化，技术团队还打造了飞书小程序供设计师使用。飞书触发云端自动化流程，迭代美术效果。云端任务完成后，将消息发送回飞书供设计师查看，大大提高了设计师的工作效率。

同时，字节跳动智造团队定制了事件驱动（-）和API来连接农场、飞书平台和云桌面平台，最大限度地发挥All in one的理念，让设计师和工程师能够利用飞书和云桌面协同研究并可以更方便地完成开发。

自主研发渲染农场平台

AIGC新技术应用

随着DALL·E的出现，字节跳动智造团队在2024年初开始了相关技术的跟进和规划。基于开源模式，字节跳动智造团队构建了数据量十亿级的数据集合设置并训练两个模型，一个是通用模型，可以生成油画、水墨画风格的图片；另一种是动画风格的模型。

不久前，字节跳动智能创作团队支持的“AI画画”特效在抖音上走红，就是利用了这一新技术。此次在抖音“卡通脸”上，技术团队进一步探索了生成3D卡通风格的能力，采用了从图片生成图片的策略。他们首先给图片添加噪声，然后使用训练好的文森图模型给文本添加噪声。引导降噪。基于预先训练的模型，输入GAN生成的与真人图像匹配的目标3D风格结果图像，并通过一组微调的文本关键字引导目标风格更接近期望的方向。输出结果就是最终的数据，交给后续的GAN模型进行学习。

自研变形GAN模型

由于抖音“卡通脸”的目标风格相对于原始人像有明显变形，因此很难直接使用传统的p2p框架来训练高质量的效果。字节跳动智造团队自研了一套p2p变形GAN训练框架，对于训练变形大、风格强的卡通目标有很好的效果。字节跳动智造团队自研的变形GAN训练框架由两部分组成：

1.初始风格化训练，提取卡通人脸风格化信息。技术团队构建了一个用于风格化信息交互融合的非配对训练框架。通过将真人和卡通人脸数据集输入到框架中，可以提取卡通人脸风格化信息。该框架是一个端到端的训练框架，包括风格化特征编码、特征融合、重构训练和风格化初步训练。训练完成后，得到卡通人脸风格化信息，用于下一步的精细化训练。

2、整合卡通人脸风格化信息，进行精准训练。第一步获取的卡通人脸的风格化信息包括风格、变形等信息。这部分信息融入到真人图像中进行精细化训练。 p2p相关的强监督损失用于配对训练。训练收敛后，得到卡通人脸模型。。

基于上述创新技术方案，抖音“卡通脸”不仅简化了工程环节、大幅提升迭代效率，而且在大角度、表情丰富、效果风格还原、光影一致性、多维度等方面取得了显着成果。肤色匹配。优化效果。据了解，负责“卡通脸”项目的字节跳动智造团队从2024年开始就重点在3D风格化方向进行突破性优化，该技术方案已支持多种3D风格特效，并在网络上取得了受欢迎的成绩。平台。

关于字节跳动智创团队：

智创团队是字节跳动的AI&多媒体技术中心。通过打造领先的计算机视觉、音视频编辑、特效处理等技术，支持抖音、剪映、头条等公司内多个产品线；同时，利用火山引擎向外部ToB合作伙伴提供业界前沿的智能创作能力和行业解决方案。

互联网资讯

阅读原文

下一篇：98岁吃货老奶奶在抖音网友圈里萌翻了！我爱吃火锅和可乐，不管多辣，有什么事我都会说“哈哈哈”

上一篇：微信上有哪些创业机会（微信创业赚钱的十大方式）

北京华网天下

抖音超900万人使用的“卡​​通脸”特效技术曝光

抖音超900万人使用的“卡通脸”特效技术曝光