应用错误收集

确定最佳音质

时间：2010-05-31 19:15:46

标签： algorithm audio signal-processing

如何确定同一音频片段的音频文件列表中的最佳音频质量，而不查看音频文件的标题。棘手的部分是所有文件都来自不同的格式和比特率，并且它们都是transcoded到相同的格式和比特率。如何有效地完成这项工作？

9 个答案:

答案 0 :(得分：13)

此处列出的许多答案都涉及常见的音频测量，例如THD + N，SNR等。但是，这些并不总是与人类对音频伪像的听觉相关。有损音频压缩技术通常通过增加 THD + N和SNR来起作用，但旨在以人耳难以检测的方式这样做。更传统的音频测量技术可能会发现在某个频段内SNR降低，但如果相邻频段中的能量如此之多以至于没有人会注意到这种差异，那么这是否重要呢？

题为“A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation”的研究论文概述了一种算法，用于根据耳朵的听觉模型量化人耳检测听觉差异的能力。它涉及与人类所感知的音频质量相关的因素。本文包括一项研究，将他们的算法结果与主观双盲测试进行比较，让您了解他们的模型是如何运作的。

我找不到这篇论文的免费副本，但是一个体面的大学图书馆应该把它存档。

实现该算法需要一些频域中的音频信号处理知识。具有DSP经验的本科生应该能够实施它。如果您没有参考波形，可以使用本文中的信息来量化令人反感的伪像。

该算法适用于PCM音频，最好是时间对齐的，当然不需要知道文件类型或标题。

答案 1 :(得分：9)

我不是软件开发人员（我是音频工程师），使用mp3算法压缩时听到的是： - 较低的频率：因此您可以检查较高范围的能量损失 - 失真的立体声：所以你可以制作一个Mid / Side矩阵，并检查Side中的THD - 较少的相位一致性：也许你可以用相关表检查

希望它有所帮助，这对计算机来说是一项艰巨的任务！

答案 2 :(得分：8)

首先，我不是音频工程师，但我一直试图保持联系音频压缩，因为我有一个很大的mp3收藏，我有一些想法可以分享主题。

从人的角度来看，您所寻找的音质是否最佳？如果是这样，你不能用“客观手段”来衡量，比如比较眼镜等。

如果一个眼镜难看，那么不一定意味着质量很糟糕。重要的是，如果有人能够将编码文件与进行盲测的原始资源区分开来。期。如果要检查编码音频轨道的质量，则必须执行a blind ABX test。

LAME（以及所有其他类型的有损 MP3，AAC，AC3，DTS，ATRAC ...... 压缩机）是所谓的感知编码器。它利用了某些事实人类音频感知的本质。所以，你不能简单地依靠光谱图评估其质量。

Source

现在，如果您的目标来自客观礼貌/观点，您可以使用EAQUAL，代表音频质量评估：

这是一个客观的衡量标准   用于衡量质量的技术   编码/解码的音频文件（非常   与PEAQ类似）

（...）

结果，但使用时   客观测试方法是   仍然没有结果，而且大多只是   由编解码器开发人员使用   的研究人员。

...或Friedman statistical analysis tool。

（...）执行几个统计对数据集的分析，即特别适合听力测试数据

我不是说频谱分析仪没用。这就是我发布一些实用工具的原因。我只是说要小心所有这些统计方法：作为Hydrogenaudio社区的某人said once，你不要用眼睛聆听。（查看我发布的这个帖子，这是一个很好的资源）。要从人的角度真实地证明音频质量，你应该测试耳朵而不是图形。

这是一个复杂的主题，恕我直言，我建议你寻找像Hydrogenaudio这样的专业音频社区。

答案 3 :(得分：4)

如果我理解正确，你会有一堆音频文件以不同的格式开始，质量各异。它们都被转换为相同的格式，所以你不能使用标题来确定哪些是最高质量的，哪些不是。

这是一个难题。可能会有一些技巧可以解决一些质量问题，但是检测一些像MP3这样的低比特压缩算法转换的东西会非常困难。

一些简单的技巧：

检查最大振幅 - 如果低，则质量不佳。
测量最高频率 - 如果频率较低，则原始频率可能较低。

答案 4 :(得分：4)

如果您有原件，可以通过估算传递函数来估算它的变化方式。您需要假设一些模型，可能从低通滤波器开始，添加一些污迹（卷积），然后运行估算器以产生质量测量。您可以浏览Estimation_theory

上的维基百科文章

答案 5 :(得分：1)

我认为disown的答案是好的，假设你只是想估计一组参数。不幸的是，您还必须为您估计的参数定义比较函数。

如果两次压缩都同时使用频率范围相同的band-pass filter会发生什么情况，但其中一种压缩频率高于另一种频率。其中一个更好吗？哪一个？

答案可能取决于您正在使用的文件中使用的频率更多。

客观衡量标准是查看丢失的文件少entropy。不幸的是，要做到这一点并不容易。

答案 6 :(得分：1)

我对此不太确定，但这是一个很好的起点：

http://en.wikipedia.org/wiki/Signal-to-noise_ratio

我认为你不能从一个信号中计算出SNR，但是如果你有一组信号，那么你可能能够计算出比较所有信号的SNR。

页面底部有一些有趣的链接可能会提供一些感兴趣的路线，如果不可能的话。

另外，我不是音频工程师，但我对信号处理有一点了解，有没有办法测量音频信号的量化水平？也许值得一看。

答案 7 :(得分：1)

如果您没有原始音频，这可能需要做很多工作;从绝对意义上来说，几乎可以肯定是根本不可能的，因为你无法分辨哪条轨道的特性是故意的，哪些是虚假的。你甚至可能有来自不同录音或混音的编码，在这种情况下，简单的比较在任何情况下都是毫无意义的。

因此，假设你不拥有原始版本，你可能做的最好的是一种启发式方法 - 它可能会很好地工作，但要付出很多努力才能实现。

投资一些音频处理软件和技能;使用它来构建软件，以启发式方式识别常见的编码器缺陷，仅基于输出。这样的缺陷可能是声音命中的时间局部性差（压缩时超大窗口的建议），左右信号之间的高度相关性，有限的频率范围等等（具有正确经验的人可能列出数十个）。
以某种滑动比例评估每种启发式音频的质量。
使用常识和尽可能多的时间+人员进行测试，因为您必须权衡各种相关因素。例如，虽然将频率再现高达24Khz可能会很好，但这并不是很重要;另一方面，缺乏锐度可能会更烦人。

如果你很幸运，有人在你面前完成了这份工作，因为这听起来像是一个昂贵的主张。

答案 8 :(得分：1)

一种新的感知质量测量方法比特率降低音频 http://citeseer.ist.psu.edu/cache/papers/cs/15888/http:zSzzSzwww-ft.ee.tu-berlin.dezSzPublikationenzSzpaperszSzAES1996Copenhagen.pdf/a-new-perceptual-quality.pdf

感知音频编码算法   表现出极大的不相干性   减少，以达到高   编码增益。信号组件   被认为是不可感知的   没有传输和编码噪音   是根据的光谱形状   掩蔽音频信号的阈值。   简单的质量测量（例如信号   噪声比，谐波失真），   这些音频无法分开   来自可听错误的人工制品，不能   用于评估的表现   这样的编码员。

用于质量评估   感知音频编解码器，适当的   需要测量算法，   检测和评估可听见的   通过比较输出的人工制品   带有未编码引用的编解码器。   基于滤波器组的感知模型   提出，产生更好   时间分辨率比基于FFT   接近并因此允许更多   预先精确建模   后掩蔽和精细分析   每个过滤器内的信封   信道。

另见
http://academic.research.microsoft.com/Paper/201987.aspx?viewType=1