应用错误收集

这取决于您将来如何使用经过培训的模型。如果您希望此型号适用于不同类型的麦克风，并假设不同的麦克风会影响录制的实际音频，那么您可能希望使用各种麦克风进行录制。

或者，或者，您可以表征不同麦克风产生的差异并修改数据集，使样本包含您在麦克风之间找到的差异。这称为数据扩充，是一种非常常见且推荐的做法，但这可能不一定是一项简单的任务。数据扩充通常特定于您正在使用的数据集和数据类型，因此这可能只是您想要使用的数据扩充的一个示例。音频的另一个典型示例是添加不同类型的背景噪声，以生成更大的独特数据集，其中必须选择所需的信号。

另一方面，您将仅在特定麦克风上使用您的型号，然后仅使用该麦克风训练它是有意义的，因为您不关心使用不同的麦克风可能表现得有多好或多差

如果这只是一次学习练习，那么我根本不会担心这个细节。事实上，我似乎不太可能不同的麦克风会产生明显不同的音频配置文件。但是，嘿，我很可能是错的。

我喜欢从人性的角度思考这样的问题。问问自己：如果我雇用一名数据录入人员执行此任务，我将给他们一些示例来教他们如何执行任务，如果这些样本来自多个麦克风，它会对他们有益吗？如果答案是肯定的，那么就像对待人类一样对待学习算法并给予它们相同的变化。

用于机器学习数据集的不同麦克风

1 个答案: