我正在处理深度学习分类任务,以区分图像/视频是无聊还是有趣。 基于一万个标记数据(1.有趣2.有点有趣3.正常4.无聊),我使用了一些预先训练的imagenet模型(resnet / inception / VGG等)来微调我的分类任务。
我的训练错误非常小,意味着它已经融合了。但测试误差非常高,准确率仅为35%左右,与随机结果非常相似。
我发现困难的部分是:
同一个物体有不同的标签,例如,草地上的狗,也许一只非常可爱的狗可以被标记为有趣的图像。但是一只丑陋的狗可能会被贴上一个无聊的形象。
定义有趣或无聊的因素是如此之多,图像质量,图像颜色,对象,环境......如果我们只是检测到良好的图像质量图像或者我们只是检测到良好的环境图像,那么它可能是有可能的,但我们如何结合所有这些因素。
每一个有趣的观点都不一样,我可能对宠物感兴趣,但是其他人可能认为它很无聊,但有一些常识,每个人都认为相同。但我怎么能发现它呢?
最后,你认为这是一个可以通过深度学习解决的问题吗?如果是这样,您将如何处理此任务?
答案 0 :(得分:2)
这是一个非常广泛的问题。我试着给出一些指示:
"InfogainLoss"
(如果你想保持离散标签),或"EuclideanLoss"
(如果你愿意接受连续分数)。