我想问一个有关基于DNN的对象检测算法(例如Yolo,SSD或R-CNN)的一般问题。
假设我想在小图像上检测手机,因此-移动设备本身非常小,此外,仅查看它们出现的像素几乎不可能检测到它们。例如,查看300x300的图片,移动设备会显示在7x5的网格上,因此,只有查看7x5的图片,没人可以确定在那看到什么。
另一方面,如果我们在图片上看到一辆地铁,那里的人的手上有黑色的东西,我们(人类)几乎可以确定黑色的7x5小网格代表移动设备
我的理解正确吗,当前最新的DNN算法无法像人类一样捕获环境,但是它们只能通过图像上的物理外观来检测物体?如果不是,您是否可以建议一种算法,该算法不一定只在黑色像素组上学习,而是能够捕捉到他/他手中握有黑色物体(可能是手机)的人?
谢谢。
答案 0 :(得分:0)
我的背景不是对象检测。研究中存在这样的上下文信息。这是一个尚未解决的管道。有一些实例适用于实例分割和文本标题。
因此,我假设对提供上下文信息的对象检测进行了研究。
无论如何,SSD使用金字塔方案,其中对上下文信息进行了编码
答案 1 :(得分:0)
这可能与跟踪算法松散相关。通常,您将使用LSTM或其他算法以及CNN来预测人类在时间序列图像中的行为。
我不明白为什么您无法使用电话的目标标签而不是CNN来预测类标签的电话来设置数据集。 R-CNN或Yolo不会像这样开箱即用,因此您需要为此应用程序自定义适合您的算法和训练集。
了解人类行为是当前深度学习的重要且活跃的研究主题。预测此类任务的行为可能不会在通用库中广泛分布,因为这些任务可能是针对特定领域的任务,并且研究是新的,但这并不意味着不可能。
这是关于此主题的调查论文,可能与您的问题有关:https://arxiv.org/pdf/1806.11230.pdf。您可能还想研究一下对象跟踪正在进行的研究,因为它是一个类似的概念(但是,不仅检测某人所持有的东西,而且涵盖的范围更广)。