从屏幕截图中对程序进行分类

时间:2011-06-16 13:16:09

标签: language-agnostic image-processing image-manipulation classification image-recognition

我需要编写和算法,可以根据屏幕截图检测应用程序(用于填写表单)的状态。
它有2个输入:
A:选择了不同标签的应用程序中大约有2-10个屏幕截图。这些是由用户制作的,所以我可以指导他选择“选择程序的上部区域”或“选择整个窗口”,但我不能指望像素完美的精度。
B:其中一个州的屏幕截图。表格中填充了不同的数据。

目标是确定“A”中的哪个屏幕截图来自与“B”相同的状态。

屏幕截图示例: example screenshot

基于此屏幕截图的示例:
A输入:此程序的10个屏幕截图,包含“菜单”,“销售订单”,“采购订单”,...选项卡选择了
B输入:上面的屏幕截图。

任务是确定10个屏幕截图中的哪个与此图像匹配。

我曾尝试使用图像描述符算法(SURF),但它具有非常高的错误率,因为它不适用于此类任务。

任何人都知道如何进行此类分类?我应该在屏幕截图上使用一些过滤器(例如中位数或模糊),然后运行一些分类算法吗?或者提取一些其他特征来进行分类(FFT,直方图,......)?

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:1)

我猜你可以使用标签宽度而不是标签标签,这更容易计算。例如,{“菜单”,“销售订单”,“采购订单”}都有不同的宽度。

如果您需要查看标签内部,可以尝试一些template matching