我在bash调用spectgen中使用了一个工具来计算wav文件的幅度。有关spectgen的说明,请访问:http://festvox.org/docs/speech_tools-1.2.0/x1717.htm#AEN1772。
我想得到的是根据时间的振幅值列表。所以我运行的命令是:
spectgen A_wav_filename.wav -otype xgraph -raw -shift 0.05 -o Output_file
然后我得到了一个这样格式的文件:
"track_0"
0.001 11.6221
0.002 15.3733
... ...
"track_1"
0.001 13.6334
0.002 15.4525
... ...
... ...
"track_127"
0.001 10.4165
0.002 12.1524
我不确定赛道的实际含义。如在描述中,它绘制基于时间和通道及其幅度的3-D图。所以第一列是肯定的时间,第二列应该是我认为的幅度?我猜这个“赛道”意味着每个频道?如果是,那么如何计算每个时间点的振幅值?非常感谢。