什么是最合适的分类法律文件图片的分类算法?

时间:2011-09-22 16:02:22

标签: c# .net artificial-intelligence

我在一个以上的国家有一套文件,如(标识符,驾驶执照和护照等),所以我需要在课堂上对它们进行分类,然后我可以对任何新文件进行分类 - 不在我的设置中 - 在班上。

文件可能会轮换或转移或两者兼而有之。 来自同一类的两个文档的文档颜色可能不完全相同。

这样做的最佳算法是什么?

3 个答案:

答案 0 :(得分:2)

问题不在于选择哪种分类算法,而是要了解分类问题中的所有相关隐藏维度。一旦理解了所涉及的所有维度,就可以使用任何一种分类算法来实现您想要的目标。

答案 1 :(得分:1)

正如其他人所说,这不是一个真正的分类问题。此外,由于您有可能旋转,倾斜等物品,您应该对图像执行某种物体检测/特征分析。

我建议调查perceptual hashingSpeeded Up Robust Features (SURF)(后者更多,如果你正在处理大量的旋转/倾斜)。也就是说,我将图像分解为非识别区域(例如,您将消除具有用户信息的区域或其照片),专注于具有大量匹配特征点的区域。

使用在特定ID类的所有实例中保持一致的区域,以便您的匹配分数更高,然后获取您比较的所有部分的聚合以执行分类。

答案 2 :(得分:0)

有几十种甚至数百种分类算法 - 基本上你正在寻找的是聚类。

http://en.wikipedia.org/wiki/Cluster_analysis

为了完成这项工作,您将不得不分析文档并将其归结为几个关键数字。这不一定非常适合群集工作。

因此,进行某种规范化(旋转所有文档以使文本处于水平状态)可能会很好,但也许不是。例如,如果关键分类号基于整体颜色 - 对于任何旋转都是相同的。