从PDF中提取数据并使用NLP进行分析

时间:2017-05-03 09:32:52

标签: python pdf nlp

我正在尝试从各公司的年度报告中自动化数据提取(例如工厂数量,员工数量等),并填写excel表中相关领域的数据。

截至目前,我已经考虑过在Python中使用以下过程:

  1. 获取PDF
  2. 转换为文字
  3. 使用NLP分析数据
  4. 回答预定义的问题
  5. 导出相关信息(如果找到)
  6. 问题是数据非常非结构化,年度报告格式因公司而异。 任何人都可以建议一种更好的方法来自动完成这项任务吗?

0 个答案:

没有答案