我是语音处理新手。所以请原谅我的无知。我收到一个简短的语音信号(10秒),并被要求使用MATLAB或Wavesufer软件手动注释音高。现在如何找到语音信号的音高?是否有任何理论资源来帮助解决这个问题?我尝试使用Wavesurfer绘制信号的音高轮廓。是吗?
编辑1:我的工作是为我们的数据应用各种基音检测算法并比较它们的准确度。因此,手动注释的音调可作为参考。
更新1:我通过区分EGG(dEGG)信号获得GCI(声门闭合实例),并且dEGG中的峰是GCI。两个连续GCI之间的时间间隔是音调周期。音高周期的倒数是音高(hz)。
更新2:SIGMA是一种着名的自动GCI检测算法。
谢谢大家。
答案 0 :(得分:1)
通常在伴有EGG记录的信号上获得基础事实。 EGG是Electrogastrogram的首字母缩写词,它是一种记录真实音高的特殊设备。
由于我怀疑您可以访问此类设备,因此我建议您使用现有数据库进行为该任务精心准备的音高提取评估。您可以下载here。该数据由Paul Bagshaw在爱丁堡大学收集
我建议你也阅读他的论文。
如果要与最先进的算法进行比较,请进行音高提取检查https://github.com/google/REAPER。另请注意" true"音高可能不是后续算法的最佳特征。有时您可能会提取错误的音高,但会获得更好的准确度,例如语音识别。查看更多信息this publication。