音频数据字符串格式为numpy数组

时间:2017-08-26 01:16:11

标签: python string numpy audio format-conversion

我正在尝试将88200个样本转换为numpy.array的音频采样率(从44100到22050),其中我已经完成了一些过程(例如添加静音并转换为单声道)。我试图用audioop.ratecv转换这个数组并且它工作,但它返回一个str而不是一个numpy数组,当我用scipy.io.wavfile.write写这些数据时,结果是一半的数据丢失和音频速度是速度的两倍(而不是速度慢,至少会有点意义)。 audio.ratecv适用于wave.open之类的str数组,但我不知道如何处理这些,所以我尝试使用numpy.array2string(data)将str转换为numpy以在ratecv上传递并获得正确的结果,然后使用numpy.fromstring(data, dtype)再次转换为numpy,现在len数据是8个样本。我认为这是由于格式的复杂化,但我不知道如何控制它。我还没弄清楚str wave.open返回什么样的格式,所以我可以强制格式化。

以下是我的代码的这部分

def conv_sr(data, srold, fixSR, dType, chan = 1): 
    state = None
    width = 2 # numpy.int16
    print "data shape", data.shape, type(data[0]) # returns shape 88200, type int16
    fragments = numpy.array2string(data)
    print "new fragments len", len(fragments), "type", type(fragments) # return len 30 type str
    fragments_new, state = audioop.ratecv(fragments, width, chan, srold, fixSR, state)
    print "fragments", len(fragments_new), type(fragments_new[0]) # returns 16, type str
    data_to_return = numpy.fromstring(fragments_new, dtype=dType)
    return data_to_return

我称之为

data1 = numpy.array(data1, dtype=dType)
data_to_copy = numpy.append(data1, data2)
data_to_copy = _to_copy.sum(axis = 1) / chan
data_to_copy = data_to_copy.flatten() # because its mono

data_to_copy = conv_sr(data_to_copy, sr, fixSR, dType) #sr = 44100, fixSR = 22050

scipy.io.wavfile.write(filename, fixSR, data_to_copy)

1 个答案:

答案 0 :(得分:0)

经过一番研究后我发现了我的错误,似乎16位音频由两个8位“单元”组成,所以我所穿的dtype是假的,这就是我遇到音频速度问题的原因。我找到了正确的dtype here。所以,在conv_sr def中,我传递一个numpy数组,将其转换为数据字符串,传递它以转换采样率,再次转换为numpy数组scipy.io.wavfile.write,最后,将2 8bits转换为16位格式

def widthFinder(dType):
    try:
        b = str(dType)
        bits = int(b[-2:])
    except:
        b = str(dType)
        bits = int(b[-1:])
    width = bits/8
    return width

def conv_sr(data, srold, fixSR, dType, chan = 1): 
    state = None
    width = widthFinder(dType)
    if width != 1 and width != 2 and width != 4:
        width = 2
    fragments = data.tobytes()
    fragments_new, state = audioop.ratecv(fragments, width, chan, srold, fixSR, state)
    fragments_dtype = numpy.dtype((numpy.int16, {'x':(numpy.int8,0), 'y':(numpy.int8,1)}))
    data_to_return = numpy.fromstring(fragments_new, dtype=fragments_dtype)
    data_to_return = data_to_return.astype(dType)
    return data_to_return

如果您发现任何错误,请随时纠正我,我仍然是学习者