如何阅读露天扫描内容中的内容?

时间:2013-12-10 11:17:42

标签: alfresco scanning

我有许多扫描内容项目正在被扫描仪和扫描仪扫描。转换成pdf / image,最后存储在alfresco存储库中。

我可以使用元数据属性搜索这些扫描的项目,但任何人都可以帮助我如何通过存储到扫描文档中的内容搜索它们。例如。我已经扫描了一份填写了用户详细信息的表格。我想用特定用户的名字搜索露天。

怎么可能?有没有办法让它尽可能接近扫描仪端?

3 个答案:

答案 0 :(得分:1)

使用EpheSoft或Kofax作为扫描软件。两种产品都与Alfresco集成,他们可以自动识别字段并将其映射到Alfresco模型。

完成此过程后,您可以搜索这些特定字段。

答案 1 :(得分:1)

我可以整合&使用kofax&扫描内容此集成可以自动捕获所有详细信息,包括扫描内容的文本内容,这些内容将自动填充到自定义内容模型中,该模型已映射到所有这些字段,并且此模型附加到扫描内容。一旦完成,它就属于露天索引的范围,之后用户可以搜索相同的索引。

此外,我假设kofax提供许多组件,如扫描,虚拟ReScan(VRS),识别(OCR / OMR / ICR),验证,验证,质量控制,PDF生成器等可用OOTB,但我们需要配置这些用于我们的实施。例如。通过配置质量模块,我们可以看到扫描内容时产生的错误。此外,由于我正在寻找alfresco + Kofax集成,所以我认为这些功能将由Kofax OOTB&我需要将扫描的内容映射到露天内容存储库以存储内容和放大器。根据定义的内容模型的元数据。

答案 2 :(得分:0)

您可以探索多种选项,但它们都要求对扫描内容执行OCR,并且从OCR中提取的文本需要存储在PDF中(如果您使用的是PDF)或它需要作为元数据或全文存储在Alfresco中。

如果您将OCR文本存储在PDF中,Alfresco将能够使用其内容转换器提取文本,只要使用的内容类型指定您将索引内容的全文。

现在有许多选项可用于完成您所需的工作,但为了使解决方案靠近扫描仪,您需要研究Ephesoft等捕获解决方案,该解决方案用于智能文档捕获和处理。可以使用其他解决方案(例如Kofax),或者您可以使用Tesseract实现自己的解决方案。