使用Apache Tika从文档中提取文本数据

时间:2015-07-07 16:57:46

标签: apache-tika data-extraction

我正在寻找一种从文档中提取文本数据的工具。具体来说,我希望能够从发票编号,供应商名称,发票日期,到期日,到期金额等发票中提取元数据。由于进入的发票来自我的供应商,我列出的元数据将位于不同的文件的各个方面。我无法确定Tika是否可以在INVOICE等文档中搜索关键字,然后提取发票号。我希望能够提取此数据,然后将文档和元数据推送到文档管理系统,如SharePoint或Alfresco。有没有人有Tika的经验,你知道这是否可能吗?

2 个答案:

答案 0 :(得分:0)

你可以使用ephesoft和alfresco。

使用ephesoft:您可以提取数据 使用alfresco:您可以使用文档存储提取的数据 与Tika比较好。

请注意以下内容 https://www.youtube.com/watch?v=soV-9GGhuBg

答案 1 :(得分:0)

也许晚了,但对其他访问者了解 Algodocs 很有用,它也提供永久免费订阅:https://algodocs.com。 Algodocs 提供多合一解决方案,即您可以根据需要提取特定字段或从数百页的图像或 PDF 文件中提取表格行。