简介: 2020天猫双11的直播间里,平台必须在1秒内将主播声音、画面和商品信息同步给分布范围极广的百万级消费者,确保后者获得一致的、实时的、高水平的音视频体验,以及商品交易(尤其是秒杀)的可信度。为了进一步优化消费者体验,降低延时,阿里巴巴非常重视在音视频技术领域的投入。本文从最新的国际视频标准VVC(Versatile Video Coding,多功能影像编码)讲起,分享视频直播行业的全景与阿里的创新,以及达摩院和淘宝团队共同开发的VVC编解码器相关工作。
国际视频标准简史
上图显示的是两个重量级国际视频标准组织:国际通信联盟ITU-T以及国际标准化组织ISO/IEC MPEG。这两个巨头从30年前就开始做视频标准,到现在已经是做到第6代了。其中这两大巨头联合制定的几款视频标准对国际上视频产业尤其有非常深远的影响。比如MPEG2,它完美的帮助视频产业完成从模拟电视到数字电视的重要转型;H264对业界的贡献就更是不言而喻,大家都知道无论什么终端(电视、手机、电脑)和什么服务(广播,卫星,互联网,视频会议等)基本上全面支持这个标准;H265对高清超高清视频和HDR视频的普及做出了重要的贡献。最新出炉的第6代标准VVC,除了服务现在已有的应用,降低带宽成本提高用户体验,同时它也可以赋能5G下新兴的视频应用,像AR/VR、360度全景视频以及超高清的4K、8K等。
为什么我们要这样坚持不懈的做6代视频标准?每次标准更新换代时,视频产业链需要从服务端内容生产商一直到最后的消费者,包括中间每个环节上打通端到端的生态系统,每一个环节都要去做更新。因为视频标准更新换代需要付出这么大的努力,所以我们对每一代新标准都会有一个基本的要求:相同的视频质量下编码效率翻倍,也就是说相比上一代,新标准的带宽节省必须达到50%。
先来看一下VVC标准会经常碰到的一些词:
VVC:Versatile Video Coding,Versatinle指灵活多功能的特性
VTM:测试模型参考软件平台
JVET:ITU-T和ISO/IEC MPEG的联合委员会
H.266:VVC是两个国际标准组织的双标,H.266是VVC在ITU-T的标准编号
历时近3年的pre-standard技术开发及积累工作,JEM(Joint Exploration Model)参考软件平台。
相同PSNR指标下,JEM-7.0相对HEVC的参考平台HM达到34%的码率节省,为正式标准化提供了重要的技术支撑。
同时,360Lib参考软件平台为全景视频的处理、压缩和质量评估提供了全套完整的工作流程。
在VVC正式标准化还没开始之前,国际标准组织和成员公司就进行了多年的技术预研和技术积累。从上图可以看到,从2015年初开始,JVET经过了历时两年半的编码技术预研,搭建并完善了JEM参考软件平台;到2017年中,在相同的PSNR的指标下,JEM相对HEVC已经可以达到34%的码率节省,为正式开始制定下一代视频标准提供了有力的技术支撑和性能证明。
另外,在JVET积累下一代编码技术的预研过程中,由于AR/VR等新兴应用的影响,JVET也对360度全景视频进行了充分研究。为此,JVET建立了360Lib参考软件平台,和JEM相结合,为全景视频的处理,压缩以及质量评估提供了一套完整的工作流程和性能分析的能力。2017年10月,VVC在JEM和360Lib基本上成熟时,ITU-T和ISO/IECMPEG这两个标准组织发表了联合技术征集书,里面包括3中主要视频格式:标准动态SDR视频(主流视频格式)、高动态HDR视频,以及360全景视频。这也是6代标准以来第一个考虑到多种视频格式的技术征集书。
2018年4月,全世界一共有32个单位提交了23份征求书的响应,在相同PSNR的情况下,最佳的响应提供了40%以上的码率节省,从此VVC标准化正式启程。2018年4月至2020年的7月,经过两年多的努力,VVC的第一版正式定稿。
达摩院视频标准团队在2019年年初时候开始参与VVC的标准制定,历时一年半,提交了很多技术提案被采纳到VVC标准中,为VVC标准的制定做出了重要的贡献。
上面图中的蓝色部分代表VVC参考软件平台VTM-1.0到VTM-9.0的性能演进,以及VVC相对HEVC在高清超高清视频上的性能增益。我们可以看到,VVC两年多的标准化进程主要分成两个阶段:前半阶段主要注重增加先进编码工具来提高VVC的性能增益,因此在VVC标准化的第一年期间压缩性能迅速上升;在后半阶段,标准委员会JVET更加注重VVC标准设计上的细化工作,注重各个VVC编码工具之间的设计融合,保证低功耗高效的软硬件实现,因此在VVC标准化的第二年中,我们也可以看到VVC的性能增益逐渐趋于稳定。
另外上图还提供了VVC参考软件平台VTM-1.0到VTM-9.0的复杂度演进过程。红色线显示的是编码时间,大家可以看到,随着编码性能增益的提升,编码复杂度的提升也很快。灰色线代表解码器的复杂度,相比HEVC来说一直维持在两倍不到,这说明VVC解码器的复杂度是非常可接受的。如何做一个好的VVC实时编码器,在最低复杂度的前提下拿到最高的性能,中间有很多技术和学问,这也是为什么后面手淘和达摩院要共同开发这个项目的重要原因。
上图列举了30多种VVC编码工具,在混合视频编码的框架下,所有的功能模块都增加了新的工具,用以提升VVC的压缩性能。另外VVC主打灵活多功能的特点,因此在标准制定过程中也一直考虑到一些重要特定场景的视频内容,比如针对屏幕内容以及360度全景视频的编码工具。
上图显示了VVC中各个编码工具对性能增益以及复杂度的贡献。在这个图上,如果一个编码工具落在图的右上方,则说明它的压缩性能好、同时复杂度低。但是我们可以看到其实没有免费的午餐,实际数据显示,编码性能好的工具,复杂度也一般相对较高,比如ALF。因此,我们在开发实际商用编码器的时候,如何合理选择使用这些编码工具,对编码器的在复杂度和性能上的可行性至关重要。另外,从上图我们可以看到在VVC的众多编码工具中,有8个性能增益可以超过1%,其他相对比较小。
上图显示了VVC在主流SDR视频上的性能增益。对于高清、超高清视频来说,在相同的PSNR指标下,VVC相对HEVC可以节省38.9%带宽,对于图片编码来说,这个性能增益为26.7%。
上面的表格中显示的码率节省并没有达到50%,那么VVC做为新一代的标准,是否达到了效率翻倍的设计目标?因为视频质量评判最权威的依据是主观质量,所以在每一代标准定稿前后,都会开展正式的主观质量验证工作,而每一代标准最后的带宽节省也是在相同的主观质量下来进行衡量。下面这个图显示了VVC主观质量验证工作在两个超高清4K视频通过非常严格的主观质量评测方法得到的初步数据,我们可以看到,相同的主观质量下,VVC相比HEVC的码率节省超过50%。
主流HDR视频序列,PQ & HLG,VTM-9.0 vs. HM16.18
360全景视频,8K & 4K,VTM-8.0 / HM-16.20 + 360Lib
更强的codec(VVC) + 更先进的投影格式(GCMP)
VVC有多功能灵活的特性,上图为HDR视频和360全景视频的客观性能。我们可以看到在相同客观性能下,VVC在两种主流HDR视频(PQ和HLG)内容的码率节省达到30%,在360全景视频上的码率节省达到32.5%。其中在360视频上的增益主要从两方面得到:一方面VVC代替HEVC,有更强大的编码内核,另外一部分的性能增益是通过使用更加先进的投影格式得来的。另外,上面的数据只显示了客观性能下的码率节省,针对HDR和360全景视频的主观评测工作也在有序开展,其中360全景视频的主观评测工作也由阿里标准团队主要牵头,预计明年初会有正式报告出炉。
达摩院视频标准团队参加VVC标准制定的过程中,在编码技术方面,贡献了和低延时实时通信、屏幕内容、无损压缩、高动态范围的压缩、帧间预测、高层语法等方面相关的技术。
同时,我们团队成员担任JVET大会和分会的代理主持人、VCC性能验收工作中全景视频方面的负责人、测试模型算法描述文档编辑、专题讨论组(AHG)主席、也是若干核心实验的负责人,为阿里巴巴在国际视频标准组织中建立了一定的影响力。
下面来看一下最新视频业界趋势以及VVC在这些视频趋势上的应用。
通过上面的行业报告对互联网各种类型的数据量的预测可以看到,视频将是永远的带宽大户;相比去年的饼状图(左边),5年后以后不光整体数据量会有5倍的增长,而且视频在整体数据量的占比也将持续快速增长。
视频数据的持续快速增长主要有四个原因:一、视频更加丰富,不论是电商(淘宝)、社交、娱乐(优酷)、还是新闻,包括智慧城市这些新兴应用,视频消费形式越来越多;二、大家越来越习惯随时随地,唾手可得的视频消费;三、消费者对视频的信号要求越来越高,由高清到超高清;最后,大家希望视频形式更加新颖,因此基于浸入式视频的AR/VR应用会快速兴起。
拿淘宝直播来讲,带宽成本占比很大。从日活和平均时长的角度来看,不到一年的时间增长非常迅速。月度带宽成本,有数量级的增长,占了整体业务成本中非常重要的一部分。现在的直播画面也很复杂,运动也较多,大家对主播的清晰度要求也越来越高,对分辨率和帧率等方面的技术指标提高了要求。目前淘宝已经将很有挑战性的视频内容做到平均800Kpbs的带宽,从H265编码器的角度来看,已经做到极致压缩。如果想要再显著的降低带宽成本,只能通过视频标准的更新换代来做到。
阿里266项目的主要目标是服务淘宝直播,希望在明后年的双11能够做到淘宝直播实时编码,同时相对阿里265来说压缩性能有显著的提升。
Fraunhofer HHI是一家非常有声望的德国研究机构,做了很多代的视频标准开发,对VVC标准开发也做出了很大的贡献。在今年9月公布了他们的开源VVC编解码器。我们对这个开源VVC编解码器做了一下实测,在淘宝直播的视频上,编码速度只能到达每秒0.5帧,和我们的实时编码要求相距甚远。而且对淘宝直播这样的应用来说,在解码器方面必须有最好的移动端优化。这些原因让我们更加认识到,我们需要自己去做一流的编解码器,能够高效服务我们集团内部业务,这是一件非常重要的事情,也是阿里266项目的主要目标。
最后我们再看一下MPEG中其他相关的视频标准,以及在其它视频标准组织的工作。前面我们讲了新颖的视频是一个大家要关注的主要视频趋势之一,这个主要是指浸入式视频。MPEG看到这个视频业界的重要趋势,除了制定VVC新一代视频压缩标准以外,还制定了一整套的MPEGImmersive浸入式媒体标准系列,其中包括点云压缩标准,六自由度视频和音频压缩标准,以及一些浸入式媒体的文件格式标准。
在国际视频标准组织之外,大家也都知道另外一个有影响力的视频标准制定联盟,Alliance for OpenMedia (AOM)。AOM从谷歌的VP8和VP9开始,2018年出台第一代AOM标准AV1,同时最近AOM也开始筹划开发下一代视频标准AV2。从国内的标准组织来说,AVS经过了三代主要标准,现在在开发AVS3第二器。AVS3第一期和VVC的时间线非常吻合,也是在2017年底发布技术征求书,2018年开始收集征求技术提案、征集的响应,也发布了HPM参考平台。经过一段时间的迭代,2019年底定稿AVS3第一版。目前AVS正在继续推进AVS3第二版的制定,目标是在明年年底定稿第二版,性能目标超过VVC。达摩院团队也在积极参与AVS3第二版的制定,为AVS3第二版的制定做出重要的技术贡献。
最后跟大家分享国际视频标准的未来会是什么样。我们在做视频标准时,不会只是看现代,更不会只看着过去,还要去看将来。从技术的趋势来说,基于深度学习的视频编码是一个给大家很多希望的技术方向。我们知道,过去6代国际视频标准都是基于传统的混合编码框架,其中有很多功能模块,但是做到今天这个框架已经差不多到了性能天花板。把DL技术引入编码有两条路线:一个是可以去和传统的框架相结合,在各个功能模块上增加DL的编码工具,使性能变更好;另一种路线是做端到端的DL视频编码结构。这两个方向,从技术趋势来说都是非常值得去深究的。因此MPEG在今年4月份成立了DNNVC专题组,这个专题组想要做的事情是探索深度学习在视频编码上的应用,用以打破传统框架的性能天花板,寻找视频编解码的未来方向。
最后和大家介绍一下达摩院视频技术团队主要负责的三部分工作:视频标准团队主攻VVC、AVS3、AV2、DL编码、VCM、DCM等硬核技术。在视频硬件实现上,我们团队开发了一款超高清的实时265编码器,在业界同类产品中压缩性能领先,同时还提供全硬件化的高效视频前处理的能力,目前服务于优酷直播业务。在视频软件实现上,我们的团队除了主导刚才所提到的阿里266项目,另外我们也和淘宝团队深度合作,为视频会议提供基于H264和H265的软硬件编码优化方案,降低业务成本,提高用户体验。