我正在为语音识别系统构建输入管道。 WAV中有一些短语,我用数据集API成功阅读(真的很让人印象深刻,它非常容易和快速)并且有一些带有背景噪音的音频文件我希望与我的短语混合以增强它们并使系统更加健壮噪音。
我想随机选择具有单独tf.data.Dataset.shuffle()
的背景噪音样本,然后将其与来自另一个tf.data.Dataset
样本的样本混合。
如何连接两个不同长度的数据集(bg噪声数据集可能是无限的)? tf.data.Dataset.zip
是否适用于此并且有效?
UPD: tf.data.Dataset.zip
成功运作,但如果噪音样本的数据集较小,则应将其相乘,使其大小等于语音样本数据集的大小。如果您不这样做,结果数据集将在压缩数据集中具有最短数据集的长度。
答案 0 :(得分:0)
tf.data.Dataset.zip已成功运作,但如果噪声样本的数据集很小,则应将其乘以其大小等于语音样本数据集的大小。如果您不这样做,结果数据集将在压缩数据集中具有最短数据集的长度。