应用错误收集

时间：2018-12-19 16:26:14

标签： neural-network deep-learning computer-vision conv-neural-network object-detection

我想问一个有关基于DNN的对象检测算法（例如Yolo，SSD或R-CNN）的一般问题。

假设我想在小图像上检测手机，因此-移动设备本身非常小，此外，仅查看它们出现的像素几乎不可能检测到它们。例如，查看300x300的图片，移动设备会显示在7x5的网格上，因此，只有查看7x5的图片，没人可以确定在那看到什么。

另一方面，如果我们在图片上看到一辆地铁，那里的人的手上有黑色的东西，我们（人类）几乎可以确定黑色的7x5小网格代表移动设备

我的理解正确吗，当前最新的DNN算法无法像人类一样捕获环境，但是它们只能通过图像上的物理外观来检测物体？如果不是，您是否可以建议一种算法，该算法不一定只在黑色像素组上学习，而是能够捕捉到他/他手中握有黑色物体（可能是手机）的人？

谢谢。

答案 0 :(得分：0)

我的背景不是对象检测。研究中存在这样的上下文信息。这是一个尚未解决的管道。有一些实例适用于实例分割和文本标题。

因此，我假设对提供上下文信息的对象检测进行了研究。

无论如何，SSD使用金字塔方案，其中对上下文信息进行了编码

答案 1 :(得分：0)

这可能与跟踪算法松散相关。通常，您将使用LSTM或其他算法以及CNN来预测人类在时间序列图像中的行为。

我不明白为什么您无法使用电话的目标标签而不是CNN来预测类标签的电话来设置数据集。 R-CNN或Yolo不会像这样开箱即用，因此您需要为此应用程序自定义适合您的算法和训练集。

了解人类行为是当前深度学习的重要且活跃的研究主题。预测此类任务的行为可能不会在通用库中广泛分布，因为这些任务可能是针对特定领域的任务，并且研究是新的，但这并不意味着不可能。

这是关于此主题的调查论文，可能与您的问题有关：https://arxiv.org/pdf/1806.11230.pdf。您可能还想研究一下对象跟踪正在进行的研究，因为它是一个类似的概念（但是，不仅检测某人所持有的东西，而且涵盖的范围更广）。