应用错误收集

用于从PDF中提取数据的自然语言处理

时间：2017-10-05 15:35:43

标签： machine-learning nlp

我有许多不同格式的扫描pdf，有许多不同的字段。将其视为已扫描的发票。我需要从扫描的pdf中提取信息并输出每个字段中的字段和文本。

我有一个OCR工具，可以很好地提取原始格式的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段及其值。由于发票的格式很多，因此在这种情况下使用OCR不是一种选择。 NLP怎么能帮助我解决这个问题？

1 个答案:

答案 0 :(得分：0)

大多数NLP工具旨在从语句中提取数据。如果你没有标点符号，它可能不会很好。如果您使用的是NLU服务，例如https://mynlu.com，您还需要提供常用短语的示例以及其中包含的相关数据的位置（实体）。如果您可以将其拆分为语句，那么像myNLU或其他NLU服务（LUIS，Watson等）可以让您在＆lt; 10分钟。

从自然语言文本中提取数据
从pdf中检索特定部分的数据
安装自然语言工具包数据
自然语言处理 - 提取数据
弹性搜索的自然语言处理
用于从PDF中提取数据的自然语言处理
自然语言实体提取
文本文件数据转换为用于自然语言处理的数据集
预测自然语言处理中多列的值
从自然语言解析日期

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？