通过机器学习或以编程方式为30种不同类型的文档从PDF /扫描的PDF中提取关键数据字段

时间:2018-06-29 15:44:51

标签: python pdf machine-learning text extract

我有30种不同类型的PDF。我需要提取特定于每个PDF的信息。我最好在python中做。我能够从一种类型的pdf中提取特定信息,但需要一个模型来识别文档的类型并自动识别需要提取的关键字然后再检索它们。是否可以以编程方式使用python?任何帮助将不胜感激。 请注意,并非所有文档都是结构化的。但是从一开始我们就可以假设该文档是结构化的。

我已经尝试过使用OpenCV从扫描的图像中提取文本,但是它给我带来了可怕的结果。我已经将整个图像转换为文本,但这不是我想要的。我只是从每个pdf中寻找特定信息。

1 个答案:

答案 0 :(得分:0)

您需要两件事。

对于关键字,您可以使用tf-idf 对于主题提取,您可以使用document classification