我有很多文件夹,里面有大量的图像文件。有时,扫描的文档图像会意外地在文件夹中结束,并且没有人在视觉上扫描文件夹,但这些图像仍然未被检测到,但如果发布到错误的位置可能会导致问题。
由于它们可以被扫描为任何文件类型,并且大小大致在真实图像的范围内,因此很难从元数据中检测到它们。
是否有人知道从真实图像中检测扫描文档的方法 - 工具还是程序化方式?
答案 0 :(得分:4)
我建议你看看雅阁框架:http://accord-framework.net/。查看计算机视觉功能。我认为这应该取决于你所描述的任务,而且这是一个有趣的新领域。祝好运。
答案 1 :(得分:1)
假设扫描的文档看起来像任何图像处理库应该做的文档。您只需选择一些功能来整理不是文档的任何内容。使用这些功能应用一些基本分类或机器学习。
剩下的几个文件可以由人检查或使用某些ORC。我不会对所有文件运行OCR,因为它比简单的分类需要更多的计算时间。
文件(尤其是机密文件)往往具有明亮的背景和高频率的黑暗前景。黑暗的东西按行分组。几乎没有颜色,如果这些颜色通常只是文档的一小部分(徽标等) 我想不出很多共享这些属性的图像。
所以,除非你的藏品中有很多报纸和书籍的图片,否则你很好。
当然扫描仪和相机具有不同的成像属性和光学像差,我相信你可以在文件中找到它们中的一些,但这对所有图像都不起作用。特别是如果这些图像是从较大的图像中裁剪出来的话。
答案 2 :(得分:0)
文件夹中是否还有其他文字背景图片?这些扫描文档中是否有常见的大图片?从非简单图像草堆中过滤大部分文本文档的一种非万无一失的方法是基于香农(直方图)熵高通图像。大多数图像的熵值比简单文档高出一个数量级。