标签: python audio speech-recognition wav
我有一个会议记录数据,其中有4个人坐在一起聊天。对于每个人,我都有WAV格式的翻领记录。现在,我想基于python中的这4个WAV文件生成讲话状态,例如,如果人1在讲话,而其他3在时间范围0不在讲话,则生成的向量应为: 1000 我在网上搜索,发现有一个名为wave的程序包,但是我不确定如何进行处理,例如,尽管第2人没有讲话,但他的翻领唱片中仍然会有一些噪音信号。
对我有什么建议吗?非常感谢!