我设法创建了一个情感识别系统,在每个帧上使用密集的光流。虽然交叉验证的准确度范围在80-90%之间,但我的目标是提高程序的准确性。
有四种情绪:中立,快乐,惊讶和愤怒。到目前为止,我的分类器工作得很好,虽然它往往过于猜测中立'当答案是“快乐”时或者“惊讶”#39;当嘴只稍微打开时,这种情况往往会发生,但是当分类器仍然认为嘴闭合时,主体可以看到微笑或者在打击时张开嘴。
Confusion Matrix for Dense Optical Flow:
[[27 22 0 0]
[ 0 57 1 0]
[ 0 12 60 0]
[ 0 9 3 68]]
Accuracy: 80-90% range
我想尝试解决这个问题。
我有能力获得面部地标的位置,但我不知道如何将这些信息变成一个有效的附加功能,我可以使用它来提高准确性。我想只是简单地在每个视频的末尾获得面部地标坐标,但我觉得这不是区分闭口和略微开口的解决方案(我认为坐标值的差异会很小)并且我猜测机器学习没有注意到差异。)
我考虑过只是简单地拍摄一个主题口的静止图像并仅仅分析它的可能性,但拒绝它,因为它容易受到照明和人的外观以及不一致的矩阵大小等因素的影响。此外,我希望我的附加功能可以利用面部动作追踪。
我想知道是否有一种聪明的方法可以将面部地标跟踪实现为一项功能,通过处理我的分类器过度预测情绪中性的问题来提高我的分类器的准确性#39 ;。我能以任何方式实现这一目标吗?