Question

我正在Python Tensorflow中训练有关音频数据的LSTM网络。我的数据集是一堆wave文件，它们read_wavfiles变成了numpy数组的生成器。我决定尝试使用相同的数据集训练我的网络20次，并编写一些代码，如下所示。

from with_hyperparams import stft
from model import lstm_network
import tensorflow as tf


def read_wavfile():
    for file in itertools.chain(DATA_PATH.glob("**/*.ogg"),
                                DATA_PATH.glob("**/*.wav")):
        waveform, samplerate = librosa.load(file, sr=hparams.sample_rate)
        if len(waveform.shape) > 1:
            waveform = waveform[:, 1]

        yield waveform    

audio_dataset = Dataset.from_generator(
    read_wavfile,
    tf.float32,
    tf.TensorShape([None]))

dataset = audio_dataset.padded_batch(5, padded_shapes=[None])

iterator = tf.data.Iterator.from_structure(dataset.output_types,
                                           dataset.output_shapes)
dataset_init_op = iterator.make_initializer(dataset)

signals = iterator.get_next()

magnitude_spectrograms = tf.abs(stft(signals))

output, loss = lstm_network(magnitude_spectrograms)

train_op = tf.train.AdamOptimizer(1e-3).minimize(loss)

init_op = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init_op)
    for i in range(20):
        print(i)
        sess.run(dataset_init_op)

        while True:
            try:
                l, _ = sess.run((loss, train_op))
                print(l)
            except tf.errors.OutOfRangeError:
                break

完整的代码为on github，包括所使用的足够自由的数据（带有IPA转录的Wikipedia声音文件）。

非自由数据（EMU语料库声音文件）确实有很大的不同，尽管我不确定如何向您显示它：

在整个数据集上运行脚本时，输出从迭代0开始，损失约5000，然后在数据集上减少至约1000。然后出现1行，表示第二个循环，突然又损失了大约5000。
将订单交换为DATA_PATH.glob("**/*.wav"), DATA_PATH.glob("**/*.ogg")时，损失从5000以下开始，下降到大约1000，然后*.ogg样本再次损失到4000。

对样本重新排序给我一个不同的结果，因此看起来WAV文件比OGG文件彼此更相似。我有一个想法，即改组理想情况下应在数据集级别进行，而不是依赖于以随机顺序读取它。但是，这将意味着将许多wav文件读入内存，这听起来并不是一个好的解决方案。

我的代码应该是什么样的？

Answer 1

请尝试以下操作：

将dataset.shuffle(buffer_size=1000)添加到输入管道。
在每个训练时期之后，隔离对loss的呼叫以进行评估。

如下图所示：

更新为输入管道

dataset = audio_dataset.padded_batch(5, padded_shapes=[None])
dataset = dataset.shuffle(buffer_size=1000)
iterator = tf.data.Iterator.from_structure(dataset.output_types,
                                           dataset.output_shapes)
dataset_init_op = iterator.make_initializer(dataset)
signals = iterator.get_next()

更新为会话

with tf.Session() as sess:
    sess.run(init_op)

    for i in range(20):
        print(i)
        sess.run(dataset_init_op)

        while True:
            try:
                sess.run(train_op)
            except tf.errors.OutOfRangeError:
                break

        # print loss for each epoch
        l = sess.run(loss)
        print(l)

如果我可以访问一些数据样本，则也许可以提供更精确的帮助。现在，我在这里是盲目的，无论如何，请告诉我是否可行。

Answer 2

这似乎是体系结构中的问题。首先，您正在旅途中生成数据，尽管这是一种常用的技术，但它并不总是最合理的选择。这是因为：

Dataset.from_generator()的缺点之一是改组所得的数据集大小为n的随机播放缓冲区需要加载n个示例。这个会在您的管道（大n）中创建定期的暂停，或者导致可能的改组效果不佳（小n）。

将数据转换为numpy数组，然后将numpy数组存储在磁盘上以用作数据集是一个好主意，如下所示：

def array_to_tfrecords(X, y, output_file):
  feature = {
    'X': tf.train.Feature(float_list=tf.train.FloatList(value=X.flatten())),
    'y': tf.train.Feature(float_list=tf.train.FloatList(value=y.flatten()))
  }
  example = tf.train.Example(features=tf.train.Features(feature=feature))
  serialized = example.SerializeToString()

  writer = tf.python_io.TFRecordWriter(output_file)
  writer.write(serialized)
  writer.close()

这将使Dataset.from_generator组件不再存在。然后可以使用以下命令读取数据：

def read_tfrecords(file_names=("file1.tfrecord", "file2.tfrecord", "file3.tfrecord"),
                   buffer_size=10000,
                   batch_size=100):
  dataset = tf.contrib.data.TFRecordDataset(file_names)
  dataset = dataset.map(parse_proto)
  dataset = dataset.shuffle(buffer_size)
  dataset = dataset.repeat()
  dataset = dataset.batch(batch_size)
  return tf.contrib.data.Iterator.from_structure(dataset.output_types, dataset.output_shapes)

这应确保您的数据被彻底改组并提供更好的结果。

此外，我相信您将受益于少量的数据预处理。首先，请尝试将数据集中的所有文件转换为标准化的WAVE表单，然后将其保存到TFRecord。当前，您正在将它们转换为WAVE并使用librosa标准化采样率，但是还不能标准化通道。而是尝试使用如下功能：

from pydub import AudioSegment
def convert(path):

    #open file (supports all ffmpeg supported filetypes) 
    audio = AudioSegment.from_file(path, path.split('.')[-1].lower())

    #set to mono
    audio = audio.set_channels(1)

    #set to 44.1 KHz
    audio = audio.set_frame_rate(44100)

    #save as wav
    audio.export(path, format="wav")

最后，您可能会发现将声音文件作为浮点读取并不符合您的最大利益。您应该考虑尝试以下方法：

import scipy.io.wavfile as wave
import python_speech_features as psf
def getSpectrogram(path, winlen=0.025, winstep=0.01, NFFT=512):

    #open wav file
    (rate,sig) = wave.read(path)

    #get frames
    winfunc=lambda x:np.ones((x,))
    frames = psf.sigproc.framesig(sig, winlen*rate, winstep*rate, winfunc)

    #Magnitude Spectrogram
    magspec = np.rot90(psf.sigproc.magspec(frames, NFFT))

    #noise reduction (mean substract)
    magspec -= magspec.mean(axis=0)

    #normalize values between 0 and 1
    magspec -= magspec.min(axis=0)
    magspec /= magspec.max(axis=0)

    #show spec dimensions
    print magspec.shape    

    return magspec

然后应用如下功能：

#convert file if you need to
convert(filepath)

#get spectrogram
spec = getSpectrogram(filepath)

这会将WAVE文件中的数据解析为图像，然后可以按照与任何图像分类问题相同的方式进行处理。

重新初始化数据集后，损失回升至初始值

2 个答案:

更新为输入管道

更新为会话