技术公开课《云计算的前世今生》:国际视频标准简史

2024-05-09
来源:网络整理

阿里巴巴介绍:2020年天猫双11直播间,平台必须在1秒内将主播的语音、图片和商品信息同步给分布范围广泛的数百万消费者,确保后者接收到一致、实时的信息信息。 、高水平的音视频体验、以及商品交易(尤其是闪购)的可信度。 为了进一步优化消费者体验、降低延迟,阿里巴巴非常重视音视频技术的投入。 本文从最新的国际视频标准VVC( )入手,分享视频直播行业和阿里巴巴的创新全景,以及达摩院和淘宝团队共同开发的VVC编解码相关工作。

文末福利:技术公开课《云计算的前世今生》。

国际视频标准简史

上图为两个重量级国际视频标准组织:国际电信联盟ITU-T和国际标准化组织ISO/IEC MPEG。 这两个巨头在 30 年前就开始开发视频标准,目前已经发展到第六代。 其中,这两个巨头共同制定的多项视频标准对国际视频行业产生了深远影响。 比如,完美帮助视频行业完成从模拟电视到数字电视的重要转型; H264对行业的贡献是不言而喻的。 大家都知道,无论什么终端(电视、手机、电脑)、什么服务(广播、卫星、互联网、视频会议等)基本上都完全支持这个标准; H265为高清超高清视频和HDR视频的普及做出了重要贡献。 新发布的第六代标准VVC不仅服务于现有应用,降低带宽成本,提升用户体验,还可以赋能5G下的新兴视频应用,如AR/VR、360度全景视频、超高清等。 4K、8K等

为什么我们坚持发展第六代视频标准? 每次标准更新,视频产业链都需要打通从服务器端内容生产者到最终消费者的端到端生态系统,包括中间的每一个环节,每一个环节都要更新。 因为升级视频标准需要付出很大的努力,所以我们对每一代新标准都有一个基本要求:在同等视频质量的情况下,编码效率提高一倍,这意味着新标准相比上一代,带宽节省必须达到50%。

首先我们看一下VVC标准中经常遇到的一些单词:

在VVC正式标准化之前,国际标准组织和成员公司已经进行了多年的技术预研和技术积累。 从上图可以看出,从2015年初开始,JVET经过两年半的编码技术预研,搭建和完善了JEM参考软件平台; 到2017年中期,在相同PSNR指标下,JEM比HEVC实现了34%的码率节省,为下一代视频标准的正式制定提供了强有力的技术支撑和性能证明。

此外,在JVET积累下一代编码技术的预研过程中,受AR/VR等新兴应用的影响,JVET也对360度全景视频进行了充分的研究。 为此,JVET建立了参考软件平台,结合JEM,为全景视频处理、压缩和质量评估提供了一整套工作流程和性能分析能力。 2017年10月,当VVC在JEM和JEM基本成熟时,ITU-T和ISO/I两个标准组织发布了联合技术征集,其中包括3种主要视频格式:标准动态SDR视频(主流视频格式)、高动态HDR 视频和 360 全景视频。 这也是第六代标准以来第一份考虑多种视频格式的技术征集文件。

2018年4月,全球共有32个单位提交了23份征集回复。 在相同 PSNR 下,最佳响应可节省 40% 以上的码率。 从此,VVC标准化工作正式启动。 2018年4月至2020年7月,经过两年多的努力,VVC第一版正式定稿。

达摩院视频标准团队于2019年初开始参与VVC标准的制定,历时一年半,提交了多项技术提案并被采纳为VVC标准,为VVC标准的制定做出了重要贡献。 VVC 标准。

上图中蓝色部分代表VVC参考软件平台VTM-1.0到VTM-9.0的性能演进,以及在高清和超高清视频中VVC相对于HEVC的性能增益。 我们可以看到,VVC两年多的标准化进程主要分为两个阶段:前半阶段主要侧重于添加先进的编码工具来提高VVC的性能增益,因此压缩性能在这期间快速提升。 VVC 标准化第一年; 下半年,标准委员会JVET更加注重VVC标准设计的细化,重点关注各种VVC编码工具之间的设计集成,保证低功耗、高效的软硬件实现。 因此,在VVC标准化的第二年,我们也可以看到VVC的性能增益逐渐趋于稳定。

另外,上图还提供了VVC参考软件平台VTM-1.0到VTM-9.0的复杂度演进过程。 红线显示编码时间。 可以看到,随着编码性能增益的增加,编码复杂度也迅速增加。 灰色线代表解码器的复杂度,一直维持在HEVC的两倍以下,这说明VVC解码器的复杂度是非常可以接受的。 如何制作一个好的VVC实时编码器,并以最低的复杂度实现最高的性能,需要大量的技术和知识。 这也是淘宝和达摩院后续共同开发这个项目的重要原因。

上图列出了30多个VVC编码工具。 在混合视频编码的框架下,所有功能模块都添加了新的工具,以提高VVC的压缩性能。 此外,VVC注重灵活性和多功能的特点,因此在标准制定过程中考虑了一些重要特定场景的视频内容,例如屏幕内容的编码工具和360度全景视频。

上图展示了VVC中各种编码工具对性能增益和复杂度的贡献。 在该图中,如果一个编码工具落在图的右上侧,则说明其压缩性能良好且复杂度较低。 但我们可以看到,天下没有免费的午餐。 实际数据表明,编码性能好的工具一般复杂度都比较高,比如ALF。 因此,当我们开发实际的商用编码器时,如何合理选择和使用这些编码工具对于编码器在复杂度和性能方面的可行性至关重要。 另外,从上图我们可以看到,VVC的众多编码工具中,有8个的性能提升超过1%,而其他的则相对较小。

上图显示了VVC在主流SDR视频上的性能增益。 对于高清和超高清视频,在相同PSNR指标下,VVC相比HEVC可以节省38.9%的带宽。 对于图片编码,这个性能增益为 26.7%。

上表所示的码率节省并未达到50%。 那么,VVC作为新一代标准,是否达到了效率倍增的设计目标呢? 由于判断视频质量最权威的依据是主观质量,因此在每一代标准定稿前后都会进行正式的主观质量验证工作,并且每一代标准最终的带宽节省也是基于相同的主观质量来衡量的。质量。 下图是VVC主观质量验证工作通过非常严格的主观质量评估方法对两段超高清4K视频获得的初步数据。 我们可以看到,在相同的主观质量下,VVC比HEVC在码率上节省更多。 50%。

手机淘宝代理怎么做_手机淘宝怎么代理卖货_手机淘宝代理怎么做的

主流HDR视频序列,PQ&HLG,VTM-9.0vs.HM16.18

360全景视频,8K和4K,VTM-8.0 / HM-16.20+

更强(VVC)+更先进的投影格式(GCMP)

VVC具有多功能、灵活的特点。 上图是HDR视频和360全景视频的客观表现。 我们可以看到,在同等客观性能下,VVC对两种主流HDR视频(PQ和HLG)内容的码率节省达到30%,对360全景视频的码率节省达到32.5%。 360视频中的增益主要来自两个方面:一方面,VVC取代了HEVC,拥有更强大的编码核心; 另一部分性能增益是通过使用更先进的投影格式获得的。 另外,上述数据仅显示了客观性能下的码率节省。 针对HDR和360全景视频的主观评测工作也在有序进行。 360全景视频的主观评价工作也主要由阿里巴巴标准组牵头,预计明年完成。 正式报告将在一开始发布。

达摩院视频标准团队参与VVC标准制定时,在编码技术方面贡献了低时延实时通信、屏幕内容、无损压缩、高动态范围压缩、帧间预测等相关信息、高级语法等等技术。

同时,我们的团队成员担任JVET会议及分会代理主持人、VCC性能验收工作中全景视频负责人、测试模型算法描述文档编辑、AHG主席、多项核心实验负责人。 为阿里巴巴在国际视频标准组织中建立了一定的影响力。

我们来看看最新的视频行业趋势以及VVC在这些视频趋势上的应用。

从上述行业报告对互联网各类数据量的预测可以看出,视频永远是最大的带宽用户; 相比去年的饼图(左),不仅整体数据量会在5年内增长5倍,而且视频在整体数据量中的占比也会持续快速增长。

视频数据持续快速增长的主要原因有四个: 1、视频日益丰富。 无论是电商(淘宝)、社交、娱乐(优酷)、还是新闻,包括智慧城市等新兴应用,视频消费的形式越来越丰富。 ; 2、人们越来越习惯随时随地触手可及的视频消费; 3、消费者对视频信号的要求越来越高,从高清到超高清; 最后,人们希望视频形式更加新颖,因此基于沉浸式视频的AR/VR应用将会迅速崛起。

以淘宝直播为例,带宽成本占很大比例。 从日活跃度和平均时长来看,不到一年的时间增长非常迅速。 每月的带宽成本增加了几个数量级,并占整体业务成本的非常重要的一部分。 现在的直播也很复杂,涉及的动作也很多。 人们对主播的清晰度要求越来越高,对分辨率、帧率等技术指标也提出了更高的要求。 目前,淘宝已经实现了具有挑战性的视频内容的平均带宽。 从H265编码器的角度来看,它已经实现了极致的压缩。 如果想要大幅降低带宽成本,只能通过视频标准的升级来实现。

阿里巴巴266项目的主要目标是服务淘宝直播。 希望明年双11期间淘宝直播能够实时编码。 同时,压缩性能相比阿里巴巴265也会有明显的提升。

HHI是一家非常有声望的德国研究机构,做过多代视频标准的制定,也为VVC标准的制定做出了巨大的贡献。 今年 9 月宣布开源 VVC 编解码器。 我们对这个开源 VVC 编解码器做了一些实际测试。 在淘宝直播视频上,编码速度只能达到0.5帧/秒,距离我们的实时编码要求还很远。 而像淘宝直播这样的应用,在解码方面一定要有最好的移动端优化。 这些原因让我们更加意识到,我们需要做出自己的一流编解码器,能够高效地服务于我们集团内部业务。 这是非常重要的事情,也是阿里巴巴266项目的主要目标。

最后我们看一下MPEG中其他相关的视频标准以及其他视频标准组织的工作。 我们前面提到,小说视频是大家应该关注的主要视频趋势之一。 这主要是指沉浸式视频。 MPEG 看到了视频行业的这一重要趋势。 MPEG除了制定VVC新一代视频压缩标准外,还制定了完整的一系列沉浸式媒体标准,包括点云压缩标准、六自由度视音频压缩标准以及沉浸式媒体的一些文件格式标准。

除了国际视频标准组织之外,大家还知道另一个有影响力的视频标准制定联盟,即AOM(AOM)。 AOM从的VP8和VP9开始,于2018年推出了第一代AOM标准AV1。同时,AOM最近也开始规划开发下一代视频标准AV2。 从国内标准组织来看,AVS已经经历了三代主要标准,目前正在制定AVS3第二版。 AVS3的第一阶段与VVC的时间线非常一致。 2017年底还发出了技术征集,2018年开始征集技术提案和回复,还发布了HPM参考平台。 经过一段时间的迭代,AVS3第一版于2019年底敲定。目前AVS正在继续推进AVS3第二版的制定,目标是明年底敲定第二版,性能目标超过 VVC。 达摩院团队也积极参与AVS3第二版的制定,为AVS3第二版的制定做出重要的技术贡献。

最后跟大家分享一下国际视频标准的未来会是什么样子。 我们在制定视频标准的时候,不仅要着眼于现代,更不能着眼于过去,还要着眼于未来。 从技术趋势来看,基于深度学习的视频编码是一个让大家充满希望的技术方向。 我们知道,过去六代国际视频标准都是基于传统的混合编码框架,其功能模块较多。 然而,如今这个框架已经几乎达到了它的性能上限。 将DL技术引入编码有两种路线:一是与传统框架结合,在各个功能模块中添加DL编码工具,使性能更好;二是与传统框架相结合,在各个功能模块中添加DL编码工具,使性能更好; 另一条路线是创建端到端的DL视频编码结构。 这两个方向从技术趋势上来说都是值得研究的。 因此,MPEG于今年4月成立了一个专门小组。 这个特殊小组想做的就是探索深度学习在视频编码中的应用,打破传统框架的性能天花板,找到视频编解码的未来方向。

最后给大家介绍一下达摩院视频技术团队的三个主要工作: 视频标准团队专注于VVC、AVS3、AV2、DL编码、VCM、DCM等硬核技术。 在视频硬件实现方面,我们团队研发了超高清实时265编码器,在业界同类产品中压缩性能领先。 并提供全硬件化、高效的视频预处理能力,目前服务于优酷直播业务。 在视频软件实现方面,除了主导刚才提到的阿里巴巴266项目外,我们团队还与淘宝团队深度合作,为视频会议提供基于H264和H265的软硬件编码优化方案,降低业务成本和改善用户体验。 经验。

技术公开课

云计算的前世今生

云计算已经触及生活的各个角落。 本课程将从云计算的历史和定义开始,逐步深入到云计算的基本类型,最后展示云计算对未来生活的影响。 希望大家学习之后,能够轻松触摸这片“云”,分享这片“云”。

分享