我们可以使用深度学习网络来检测有趣或无聊的图片吗?

时间:2017-06-13 06:11:37

标签: neural-network computer-vision deep-learning caffe conv-neural-network

我正在处理深度学习分类任务,以区分图像/视频是无聊还是有趣。 基于一万个标记数据(1.有趣2.有点有趣3.正常4.无聊),我使用了一些预先训练的imagenet模型(resnet / inception / VGG等)来微调我的分类任务。

我的训练错误非常小,意味着它已经融合了。但测试误差非常高,准确率仅为35%左右,与随机结果非常相似。

我发现困难的部分是:

  1. 同一个物体有不同的标签,例如,草地上的狗,也许一只非常可爱的狗可以被标记为有趣的图像。但是一只丑陋的狗可能会被贴上一个无聊的形象。

  2. 定义有趣或无聊的因素是如此之多,图像质量,图像颜色,对象,环境......如果我们只是检测到良好的图像质量图像或者我们只是检测到良好的环境图像,那么它可能是有可能的,但我们如何结合所有这些因素。

  3. 每一个有趣的观点都不一样,我可能对宠物感兴趣,但是其他人可能认为它很无聊,但有一些常识,每个人都认为相同。但我怎么能发现它呢?

  4. 最后,你认为这是一个可以通过深度学习解决的问题吗?如果是这样,您将如何处理此任务?

1 个答案:

答案 0 :(得分:2)

这是一个非常广泛的问题。我试着给出一些指示:

  1. "我的训练错误非常小......但测试错误非常高"意味着你overfit你的训练集:你的模型学习特定的训练样例,而不是学习一般"分类规则"适用于看不见的例子。
    这通常意味着相对于训练样本的数量,您有太多可训练的参数。
  2. 您的问题不完全是"分类"问题:分类一个有趣的"图像为"无聊"比把它归类为“有趣的"”更糟糕。您的标签集有订单。考虑使用考虑到这一点的损失函数。也许"InfogainLoss"(如果你想保持离散标签),或"EuclideanLoss"(如果你愿意接受连续分数)。
  3. 如果你有足够的训练样例,我认为从一个深层模型中要求区分一个有趣的"并不是太多。狗形象和无聊的#34;一。尽管语义差异不大,但图像之间存在差异,深度模型应该能够捕获它。
    但是,您可能希望从一个经过培训的网络开始您的微调,即美学和#34;任务(例如MemNetflickr style等)而不是"语义"网络像VGG / GoogLeNet等。