我正在尝试使用Sharepoint实施文档管理系统。一个主要问题是同事无法在当前设置(本地文件服务器)中找到文档。他们要求我们拥有一个系统,该系统可以扫描上载的文档并自动在其中查找关键字,然后填充“元”列。
我在图像文件上使用OCR取得了一定的成功,但是从办公文档(doc,xls等)中获取关键字却一直没有成功。
有没有一种方法可以建立流程来为我完成这项任务?
任何帮助都是很重要的。
我尝试了“获取文件元数据”和Azure“文本分析”,但是它似乎获取了文件的原始数据(我假设是XML)并返回了要分析的文档。
答案 0 :(得分:0)
此要求有些含糊-如何在文档中定义关键字?
因此,第一个明显的解决方案是在上传每个文件时为其分配关键字。您可以为此创建具有流程的流程-有任务,提醒等。
首先使用OCR进行自动化意味着您需要使用与MS流一起使用的OCR,您只有一种选择-ElasticOCR。然后,在你的流程中 -将文档内容提供给ElasticOCR操作 -请记住,OCR并非100%准确 -根据您的关键字定义分析生成的文本内容 -最后,将元数据写回相应列中的库中。
出于类似的要求,我们要求上传者以简短的摘要(内容类型的列)发布其文档。假设摘要包含关键字并存储在多行列中-使其可在整个站点范围内搜索。