通过读取音频文件的频率数据,我一直在寻找某种形式的性别检测。我找不到能够做到这一点的程序,甚至任何可以输出音频数据的程序都没有运气,所以我可以写一个基本的程序来阅读它并操纵它来确定说话者的性别。
你们有谁知道我能在哪里找到帮助我的东西吗?
重申一下,我基本上想要一个程序,当一个人对着麦克风讲话时,它会以相当高的精确度说出说话者的性别。我的完整计划是在其上还有语音功能,因此程序会写出发言者所说的内容,并在发言人身上提供一些非常基本的人口统计数据。
*最好使用支持跨平台或Linux的通用脚本语言。
答案 0 :(得分:1)
您将要研究共振峰检测和线性预测编码。 Heres a paper有一些信号流图可以移植到scipy / numpy。
答案 1 :(得分:1)
虽然这是一个古老的问题,但如果有人对从音频进行性别检测感兴趣,您可以通过提取MFCC(Mel频率倒谱系数)特征并使用机器学习模型GMM(高斯混合模型)对其进行建模来轻松完成此操作/ p>
可以按照本教程实现相同的目标,并对从Google的AudioSet性别明智数据中提取的子集进行评估。