与 Dmitriy Vatolin 博士谈论编解码器和质量问题

来源:streaming media
原文作者:Jan Ozer
翻译整理:徐鋆

目录

  • 主观评分准确性

  • 无参考指标的发展

  • 超分辨率

  • VMAF hacking 问题

  • VMAF 的使用

  • AV1 hack VMAF?

  • VQMT 如何整合基于标准的指标

  • VQMT 低帧值

  • 性能比较的差异

  • 参考链接

Dmitriy Vatolin 博士是莫斯科国立大学图形和媒体实验室的负责人,该实验室是视频质量测量工具(Video Quality Measurement Tool,VQMT[1])的开发者,是众包视频评级网站 Subjectify.us[2] 的开发者,并且在过去 18 年中出版了越来越多的编解码器和编码器比较报告。因此,他对客观和主观指标以及编解码器质量有着无与伦比的洞察力。我们请他就各种主题发表评论,包括客观指标的准确性和 VMAF 的状况。我们很高兴公布他的答复。

 主观评分准确性

Streaming Media:你已经进行了很多基于指标的编解码器研究,很多都有主观验证。你对各种指标预测主观评分的准确性有什么看法?

Vatolin:主观质量的测量关键取决于数据集的大小和质量。现在,我们有大约 3000 个由不同的编解码器压缩的序列,并有主观评分,我们将继续深入地建立这个数据集(感谢 subjectify.us)。在接下来的 3 个月里,我们计划在 videoprocessing.ai[3] 上分别发布完全参考和无参考指标的两个基准。我们还收集了具有不同伪影和处理方法的序列(例如超分辨率),我们也用它们来评估指标。

我们预测,在未来几年,超分辨率将与编解码器一起使用。另外,这些工作使我们能够研究评估神经网络编解码器的实用方法,这些方法已经开始出现(我们也已经开始工作)。

对于那些对当前结果感兴趣的人,我想推荐我们在 8 月份发表在 arxiv 上的论文“Objective video quality metrics application to video codecs comparisons: choosing the best for subjective quality estimation”[4]。在这篇论文中,有许多图表对不同的 VMAF 计算进行了评估,例如(你可以在图 1 中看到 VMAF NEG 的质量明显下降)。



图 1 不同的 VMAF 计算方法与主观评分的关联性


在即将到来的基准测试中,我们计划纳入很多和他们的计算选项。有趣的是,我们可以注意到 AV1 等新编解码器上的旧指标和 VMAF NEG 的相关性大幅下降,特别是相对于旧编解码器而言,你可以在图 2 中看到,PSNR、MS-SSIM 和 SSIM 的预测精度在 AV1 中大幅下降,但在 HEVC 中却保持稳固。看来,随着 AV1 的广泛使用,PSNR 和 SSIM 的使用将不再那么普遍。



图 2 旧指标的预测准确性随着 AV1 的出现而急剧下降

无参考指标的发展


Streaming Media:无参考指标的情况有多大的改观,它们在今天的实践中的适用性如何?

Vatolin:最近,我们看到了无参考指标的最大增长,其中许多指标正在取代过去几年的经典全参考指标。MDTVSFA[5] 的结果尤其令人印象深刻(图 3)。


图 3 全参考和无参考指标与主观评价的一致性


然而,你必须考虑无参考指标的稳定性较低。我们还需要看看它们在不同编解码器中的表现,例如,它们的相关性在 H.264 和 VVC 中会有多大差异。此外,视频序列的选择、预处理方法和其他因素也非常重要。我们计划在相应的基准中对这个话题进行深入分析。

AVQT[6] 是苹果公司的一个指标,在 2021 年 5 月提出;TENCENT 是腾讯公司的一个指标;而 VMAF,大家都知道,是来自 Netflix。由于开发好的度量衡需要对数据集的规模和质量进行认真的投资,而这种数据集由于版权问题很难放到公共领域(我们知道有几个案例,由于法律问题,大型数据集不得不从公共领域删除)。

超分辨率

Streaming Media:你提到了你在超分辨率方面的研究。什么是超分辨率,该技术离真正的日常使用还有多远?

Vatolin:超分辨率[7]是指从低分辨率的源产生高分辨率的图像或视频的过程。它已经在许多应用中使用。

我们的工作对象是视频,我们对视频的实用超分方法最感兴趣。超分方法可以粗略地分为“美化性超分”(95% 的方法)和“恢复性超分”。谷歌在 2018 年实施了视频的恢复性超分(采用基于块的运动估计和其他技术),以改善其 Pixel 3 手机中的照片[8]。由于照片质量现在是智能手机价值的 50%,其他制造商现在也在做同样的事情。

实际上,智能手机中的视频超分已经出现了,但目前只针对单帧。而且,即使今天存在广泛的电力使用和缺乏计算能力等限制,在不久的将来,我们很可能会看到这些算法在整个视频中的充分使用。此外,4K 电视和 2K+ 智能手机显示屏的份额正在稳步增长。

在过去 6 个月中,我们发布了三个视频超分方法的基准。来自相机的视频超分[9](处理噪音和伪影),对超分结合编解码器的测量[10](例如,超分与 H.264 的效果比与 AV1 的效果好--我认为在新电视和平板电脑内很快会有很多有趣的功能),最后是针对不同类型内容的一般上采样[11](用超分做上采样)。在 GitHub 上已经有 640 个关于超分辨率的公共资源库[12],而且每隔 1-2 天就有新的资源库出现。我们计划准确评估所有最有趣的竞争者。目前的结果已经相当令人鼓舞,特别是我们测量了(再次感谢 subjectify.us)主观质量,看到了相当乐观的情况(图 4)。

图 4 超分辨率模型的准确性和速度


正如你所看到的,这个领域的指标存在着一个重大问题。以 PSNR 为导向的方法倾向于模糊画面,这对视觉质量是不利的(图 5)。当使用 PSNR 与编解码器配对时,我们甚至可以观察到一种负相关。我们新的 ERQA 指标(使用 “pip install erqa” 来安装)看起来很有希望,我们目前正在为超分改进它。



图 5 超分辨率任务的指标性能
VMAF hacking 问题


Streaming Media:你是最早发现 VMAF hacking 问题的人之一。这方面的情况如何?

Vatolin:这项工作已经成功地继续下去了。去年夏天,Netflix 发表了 VMAF NEG(“neg” 代表 “no enhancement gain”,无增强收益)。今年夏天,我们发表了“hacking VMAF 和 VMAF NEG:对不同预处理方法的脆弱性”[13],这篇文章介绍了你如何用其他增强手段 hack VMAF NEG。到目前为止,“无增强收益”的 VMAF 还没有真正实现,很遗憾。这类指标发展的最大问题是,当指标的 hack-resistance 增加时,其相关性的质量就会明显下降,如图 6 所示。


图 6 VMAF NEG 的预测准确性比其他 VMAF 模型低得多


我们在图 7 中可以看到,VMAF NEG 的表现比 MS-SSIM 差,同时具有更高的计算复杂性。


图 7 MS SSIM 比 VMAF-NEG 更准确


请注意,在最新版本的 VQMT 中,CPU 上的 MS-SSIM 的快速版本比 OpenCL/GPU 上的 VMAF 的版本要快。如果在 CPU 上的速度差异超过 22 倍,我们为什么要测量 VMAF-NEG 值,这并不明显。然而,我们不应该忘记为什么一开始就提出这个话题。如果我们只计算那些容易被入侵的指标值,这种比较就不能被认为是客观的。有一个严重的问题。如果 VMAF 的相关性与 MS-SSIM 差不多,而 GPU 上的速度是 3.5 倍,CPU 上的速度是 22 倍,为什么还要计算 VMAF 呢(图 8 和 9)。



图 8 在 GPU 上,MS SSIM 要比 VMAF-NEG 快很多


图 9 在 CPU 上,MS SSIM 也比 VMAF-NEG 快得多


也就是说,我们的初步研究表明,还有其他方法可以提高 VMAF 的价值。目前,我们已经表明,DISTS、LPIPS 和 MDTVSFA(目前无参考基准的领导者!)指标,正在获得普及,也没有抵抗 hacking 的能力。我们计划在新的度量衡基准中分别分析度量衡的抗性。

VMAF 的使用

Streaming Media:关于何时使用 VMAF 以及如何使用,您有什么底线建议?

Vatolin:首先,当你看到 VMAF 数据而不说明它是如何和在什么视频上计算的时候,你必须非常小心。我们的测量结果表明,你只需为比较的编解码器选择“正确的”视频序列,就能产生巨大的差异(图 10)。

图 10 VMAF 版本的准确性因内容类型而异


如果你自己进行测量,你需要看很多东西,包括不同指标在不同序列上的不同行为(详细描述显然超出了这次采访的范围,我们现在正在积极研究这个话题)。无论如何,不幸的是,准确测量的复杂性最近已经大大增加。

AV1 hack VMAF?

Streaming Media:我知道你已经研究了多个 AV1 编解码器。在不指名道姓的情况下,你是否怀疑过某个编解码器试图 hack 一个更好的分数?

Vatolin:谷歌的程序员在一年多前将 tune_vmaf.c 加入到 libaom 的源码中(它实现了我们两年前发布的方法)。一般来说,我不想透露名字,但同样,当我们在比较中遇到成功 hack VMAF 指标的情况时,我们开始在这个领域进行深入研究。而且很明显,随着神经网络前后处理以及神经网络编解码的出现,这个问题将明显变得更加复杂。

VQMT 如何整合基于标准的指标

Streaming Media:如何将基于标准的指标,如 ITU-T Rec. P.1204,与 VQMT 进行整合?

Vatolin:首先,我们想测试一下它对 hacking 的抵抗力(开玩笑)。严肃地说,这个指标将很快包括在我们的“完整参考”基准中,所以你将能够看到结果。我们已经计算了它的相关度,它们比预期的要低。我们希望看到 ITU-T Rec. P.1204 由其他研究人员进行测试。

VQMT 低帧值

Streaming Media:我一直是 VQMT 中低帧值的忠实粉丝,它可以衡量瞬时质量问题的可能性。最近 LinkedIn 的一个评论问道:“也许值得用 5% 的百分位数来取代低帧 VMAF,以消除异常值的影响(或“黑天鹅”,即用统计学中非常罕见的事件)。我不确定 5% 是正确的数字,但这是一个更好的方法吗?如果是的话,什么才是正确的数字,这是否在 VQMT 的路线图上?”

Vatolin:目前,VQMT 可以包括输出 95% 的 VMAF 值的置信区间,即 2.5% 和 97.5% 的百分位数。这些是通过应用一堆模型并从中获得统计信息来计算的。添加任何其他百分位数都不复杂。我们现在正在考虑增加一个设置,允许你调整置信区间的长度,并设置你想要的任何值。为了进行更详细的统计分析,你可以使用计算置信区间的模型的数据。在 VQMT 中,通过设置“每个模型的值”,将有可能包括其输出。

对某一百分位数的充分性及其与 MOS 值的对应关系的研究是一个非常有趣的话题。目前,我们还没有现成的答案,即使用什么百分比最好。但 2.5% 似乎是一个真正的低值,可能会受到异常值的影响。VMAF v0.6.2 和 v0.6.3 中的计算结合了大约 20 个模型。在这种情况下,2.5 百分位数考虑到了具有高权重的最低结果的模型。这个模型可能是一个异常点。切换到 5% 的值应该可以平滑任何不充分的结果。

性能比较的差异

Streaming Media:有点偏离主题,但我注意到许多白皮书中的“学术”编解码器比较发现 AV1 的性能比 HEVC 低得多,而你们的许多研究结果却相反。你对这种差异的解释是什么?

Vatolin:为了评估编解码器的比较,你必须考虑三个主要问题--哪个编解码器被比较,用什么设置,在什么序列上。我们从开发商那里收到编解码器和设置--这非常重要。许多经过优化的编解码器是不能免费使用的。例如,今年的腾讯 AV1 的表现明显好于 libaom AV1[14]。VVC 的情况也一样--在“免费版本比较”中很容易显示出 VVC 在本质上比 libaom AV1 差,但与商业版本的编解码器比较,我们看到了另一种情况(图 11)。


图 11 MSU 2021 年的编解码器性能比较表明,VVC 有很大的潜力


另外,细心的读者都知道,即使是完美调整的 x264,很久以前,开发者给我们发送了编码配方,提供了比标准预设更好的结果。为什么会发生这种情况是一个单独的问题,但这是一个容易验证的事实。总的来说,选择好的预设也是一个大的复杂的问题,我们在这方面有一些出版物和 Efficient Video Transcoding.guru[15]网站,在那里我们展示了选择比标准预设更好,甚至比开发者预设更好的预设。

最后,你可以阅读我们的数据集和一些学术数据集在每次比较中的差异。特别是,我们专注于对编解码器来说比较简单的序列,但在现实生活中的复杂性比较常见。而且,由于我们每年都会直接从开发者那里收到大量的批评和建议(我们也在不断地实施这些建议),我们有理由相信我们的结果更接近于现实生活。

文章来源:媒矿工厂


1892
0