我想提取与声音片段的某个区域相关的样本字节数据,例如声音片段中的单词,这样我就可以获得仅与特定单词相关的样本数据集合,然后我可以通过FFT发送。我如何能够从整个声音文件的字节集合中识别这个数据集合?文件中的一些字节数据在将它们转换为2字节值后看起来像这样,因为它是一个16位的声音文件(44100Hz 15秒)。
49150.0
43010.0
15622.0
58886.0
19460.0
35583.0
0.0
7930.0
507.0
2303.0
59897.0
39419.0
517.0
6663.0
9989.0
13055.0
9210.0
我知道这些数据属于时域,我没有看到数据的任何重大变化,如0的集合,以识别沉默。我是否能够在时域中执行此操作,或者是否必须将此数据带到频域,然后过滤不必要的数据并执行反向FFT以获取有意义的数据集合。提前致谢。
答案 0 :(得分:1)
这样做的一种方法,也许是最简单的方法是将声音文件加载到音频编辑应用程序中,让您设置选择的起点和终点,只需听取并移动选择点,直到听到你的声音为止想。试图找到软件算法可用的那些端点的准确而可靠的描述是一个更加困难的问题。