有没有人知道图书馆,程序,项目等,试图确定音频文件中有多少个发言者,标记每个发言者,标记其性别等?
到目前为止,我发现了以下内容:
答案 0 :(得分:1)
识别音频文件中有多少人并将片段分配给发言者的任务称为说话人日记。使用此关键字进行搜索,您可以在python中找到大量研究论文和一些库。当前的大多数研究使用深度学习模型(通常是RNN)来生成嵌入,然后将它们聚类成不同的块,理想情况下属于不同的扬声器。这是一项艰巨的任务,特别是如果您的文件很嘈杂。我没有找到任何非常准确的库/工具。甚至IBM的API也不那么准确。
我们已经为这项任务开发了一些深度学习模型,这些模型通过API公开。您可以查看https://developers.deepaffects.com/了解更多信息。我们还有性别和情感识别API。
披露 - 我在deepaffects工作