北京华网天下

字节跳动海外技术团队 7 篇论文入选 ISMIR 2021，抖音神曲为何能火？

2024-09-25

来源：网络整理

由发布

同步编辑部

在今年的音乐技术峰会2021（for）上，字节跳动海外技术团队共有7篇论文入选，涵盖音乐分类、音乐标注、声源分离、音乐结构分析等多个技术方向。

如今，抖音已经成为音乐推广的重要渠道，每一首音乐都是先在抖音上作为短视频背景音乐爆红，再传播到各大音乐平台，抖音热曲甚至成为很多音乐平台的重要品类。

有人说神曲之所以能火，是因为歌词旋律简单，听过多次便能刻骨铭心。但对于用户量巨大、内容场景复杂多样的短视频平台来说，如何将音乐更好地融入短视频创作和互动绝非易事。

包括抖音在内，字节跳动旗下的很多短视频/音乐APP都拥有上亿首歌曲的存量，音乐片段数量更是高过亿。而让海量音乐和海量用户更能相互理解的，是一整套针对语音、音频和音乐的智能创作能力，也就是SAMI（、和）。

在今年的音乐技术峰会上，字节跳动海外技术团队共有7篇论文入选，涵盖音乐分类、音乐标签、声源分离、音乐结构分析等多个技术方向。团队成员分布在美国、英国等国家和地区，支撑着字节跳动产品的音乐搜索、推荐、内容创作。这些技术，恰恰揭示了一首首神曲是如何诞生的。

音乐与视觉联动技术让创作更简单

原来任何人都可以拍出百万播放量的变装视频，音乐与视觉效果的结合，不断激发创作者发挥无限的想象力，哪怕只是上传一张照片，不做任何裁剪、编辑，也能变成自己的“视觉大片”。这个简单的功能，渐渐成为抖音业余用户的创作利器，大大降低了视频拍摄门槛，让用户尽情发挥创意。

这些视频创作效果是基于抖音音频算法技术对音频内容的深度分析，结合视觉等算法技术，设计的一种针对音乐频谱提取的新型深度学习模型。该技术可以用于视频剪辑中的人声旋律提取、音乐结构分析，实现更好的音画匹配效果。随着技术的不断完善，该技术还将应用于音乐标记、和弦识别和节拍跟踪等，丰富多彩的视频玩法将不断涌现。

2021 年论文：

该模型的原理是对音频信号进行短时傅里叶变换得到频谱图，再对频谱图进行时域和频域变换提取高层特征，模型本身包含残差结构，使底层信息充分流入高层。

用算法理解音乐，让曲库不再“庞大”

当我们面对海量的曲库，哪首歌能唤醒此刻的心情?算法技术可以对音乐这一抽象的“听觉艺术”进行客观的分析和展现，大大提高用户发现音乐的效率。

用户在为视频寻找合适的配乐时，往往会通过标签分类进行搜索，例如音乐流派就是最常见的分类。目前字节跳动提出了半监督音乐模型来实现音乐标签化，对海量音乐数据进行流派和相似度的分类。音乐标签化在抖音、简影等产品的音乐推荐系统中得到了广泛的应用。

Tik Tok 音乐标签搜索

2021 年论文：< 半

论文提出的半监督音乐模型可以突破传统卷积神经网络的部分性能，并进一步提出了一种基于噪声学习和半监督学习的方法，充分利用了标记数据和未标记数据，大大减少了人工数据标记的工作量，该模型已经超越了目前大规模使用的深度残差网络的性能。

语言识别技术提升多地区、多语言用户体验

除了音乐风格、相似度等标签，语言识别对于全球化环境下的音乐应用也十分重要。字节跳动的音乐语言识别系统可以快速区分一首歌曲中中文、英文、印地语等数十种类别的构成和占比，该技术正在为曲库提供语言识别服务，精准推送合适语言的音乐给用户，已被证实能有效提升多地区、多元语言用户的留存率。

2021 年论文：

Byte提出的音乐语言识别支持多模态作为系统的输入，基于音频的对数梅尔频谱图，通过50层的深度残差网络提取嵌入特征，支持音乐的一些结构化文本数据，如专辑名称作为输入，通过语言识别模型输出嵌入特征，最后结合音频和元数据的多模态特征，通过全连接层输出预测的语言结果。

抖音如果裁剪音乐_抖音音乐剪裁在哪里_抖音里的音乐怎么裁剪

自动和弦识别助力AI成为创意人才

除了最常见的“标签化”理解模式，字节跳动的音乐理解算法还着重对音乐本身的内容结构分析，这也是其音频算法的一大“法宝”，这项技术让产品能够更好地理解音乐，更好地使用音乐。

通过对海量音乐 MIDI 的和弦进行分析，我们可以不断发现创作好音乐的秘诀，进而输出快速、大规模、高质量的和弦片段。这项技术也为 AI 自动作曲系统提供了前提条件，帮助 AI 音乐创作出更符合大多数人喜好的音乐片段。AI 创作的音乐已经在、抖音等产品中得到广泛应用。

2021 年论文：深度

本技术提出了一种识别音乐和弦的方法，可以识别出各种各样的和弦类型，是一种基于神经网络的自回归蒸馏估计方法NADE。经过详细的数据测试，该解决方案在一些经典数据集上的和弦识别效果优于很多同类研究。

音乐表征的基本技巧：通过对比学习降低数据成本

除了理解音乐和弦，其他的音乐结构分析能力也必不可少。字节跳动对音乐结构的理解，大大提高了在UGC、PUGC视频场景下使用音乐的效率，也让抖音成为了“神曲创作机器”。

只有理解了音乐是如何“表达”的，才能更好地“结构化”音乐，大大降低了理解音乐内容的门槛。Byte提出了一种新的音乐表示模型CLMR，它需要的数据标注非常少，而且通用性很强。该模型已经应用于大型音乐数据集，作为音乐标注和节奏提取的重要前提，大大降低了成本。

2021 年论文：< 共 >

CLMR 只需要很少的数据标注，避免了监督学习中需要大量的标签，大大降低了数据成本。通过对音频数据进行多次增强，并采用对比学习的方法，训练出音乐的通用表示。CLMR 表示在多个音频分类迁移学习任务中取得了非常好的效果。

分析音乐结构的新方法，助你释放创作潜能

人可以很自然地识别音乐中的高潮，可以很自然地把一首三分钟的歌哼到五六分钟，那么机器能做到这样自然的过渡吗？

该技术目前已应用于西瓜的音频编辑场景，通过音乐结构分析算法批量识别音乐中的精彩片段和循环片段，让智能延长效果更加自然，帮助用户随心所欲地延长或缩短音乐长度，让创作者玩得更轻松。

西瓜音乐智能扩展

2021 年论文：

Byte 的音乐亮点检测等技术采用了更先进的音乐结构分析方法。音频通过深度神经网络提取特征，提取出的特征将被送入数据挖掘模块进行进一步分析。本文提出的方法已经在 RWC 等多个数据集上使用。

除了上述的音乐理解技术外，技术团队还提供音乐素材制作的支持，以增强音乐在各类业务场景的灵活性。

例如，声源分离技术可以将一段音乐分离成人声和伴奏。在音频和视频编辑场景中，它支持创作者用更好的背景音乐替换人声，或者提取背景音乐并用更好的人声替换。声源分离是音乐信号处理中的一项关键技术。新模型比大多数声音分离系统更有效，并已在以下场景中使用...

2021 年论文：< 和 Deep for >

该技术的创新之处在于作者提出了一种同时估计幅度谱和相位谱的方法，提高了理想掩模法的上限，并进一步提出了143层的深度残差网络。实验表明，该系统在人声分离方面取得了8.98 dB的数值。

互联网资讯

阅读原文

下一篇：无需银行卡，微信支付宝互转就用兑换助手

上一篇：信用卡手续费计算方法及费率标准全解析