我有许多不同格式的扫描pdf,有许多不同的字段。将其视为已扫描的发票。我需要从扫描的pdf中提取信息并输出每个字段中的字段和文本。
我有一个OCR工具,可以很好地提取原始格式的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段及其值。由于发票的格式很多,因此在这种情况下使用OCR不是一种选择。 NLP怎么能帮助我解决这个问题?
答案 0 :(得分:0)
大多数NLP工具旨在从语句中提取数据。如果你没有标点符号,它可能不会很好。如果您使用的是NLU服务,例如https://mynlu.com,您还需要提供常用短语的示例以及其中包含的相关数据的位置(实体)。如果您可以将其拆分为语句,那么像myNLU或其他NLU服务(LUIS,Watson等)可以让您在< 10分钟。