我正在研究移动应用程序的儿童logopaedic练习(发音评估的好处)。在第一次迭代中,我们希望实现对一个孤立辅音的正确发音的评估(俄语相当于英语“sh”[ʃ]声音)。结果可能是“正确的”或“不正确的”(更好的点,例如从1到5)。
我们有约50个语言治疗师记录的样本,并以5分质量标准进行标记。每个样本包含单独的声音(0.5-2秒)。我们将来可以获得更多样本。
一般情况下,我在以下步骤:
中拆分此问题预处理声音信号(降低噪音,放大/衰减,消除静音期);
提取与辅音发音质量相关的正确信号特征。特征是从声音块(帧)产生的数字向量。特征候选:声音的频谱,MFCC系数,幅度谱......另一个问题是特征帧大小(持续时间)。
使用一些分类算法(一般来说是“机器学习”)根据声音训练集的特征进行分类。
我遇到的主要问题缺乏方法如何提取功能。
我试图使用MFCC方法,但看起来,特征向量更多地取决于样本期间的声强变化(坦率地说,我做了那样的结论,只看了MFCC系数的图,如https://drive.google.com/file/d/0BzBavyZHrcMlS0xLQ2phbmxoRVk/view?usp=sharing,其中X值是13个MFCC系数,每行代表一个25毫秒的声音帧。
由于辅音的噪音性质,我不确定纯光谱特性。
许多论文和博客文章描述了在单词和话语语境中语音识别的问题。我的直觉说我需要采用不同的方法处理我的问题。
类似任务的良好功能示例和功能评估的一般方法将对我有用。感谢。