目标:
我想在包含两个扬声器的录音中提取语音活动的片段(时间码)。最佳地,解决方案应为“ Speaker 1”或“ Speaker 2”段分配标签。
问题:
我发现了VAD(语音活动检测)和说话者识别。但是我不太确定这是我要寻找的东西,因为VAD没有提供标签(Speaker 1或2),并且“ Speaker Identification”似乎过高(因为它用于多个会话的身份验证)并且我只有几张唱片(每张唱片上〜10个都有不同的扬声器)。
问题:
我的问题有解决方案吗(自动细分)?我在搜索正确的短语( VAD 和扬声器识别)。您能推荐一个易于实现的VAD Python库吗?