应用错误收集

机器学习：从文件列表中提取关键字

时间：2017-01-23 15:48:37

标签： python text-extraction

我有一份包含不同页数和演示文稿的pdf文件列表。每个文件都包含我需要提取的信息列表。但问题是信息包含在不同类型的短语和语法中。我需要知道我是否需要构建一台机器学习这样做，如果算法和技术适合我的情况。注意：我有一个巨大的pdf文件数据集用于训练模型。

1 个答案:

答案 0 :(得分：0)

因此，如果您想在Python中执行此操作，似乎PyPDF2是可行的方法。您应该能够从PDF中读入并提取所需的文本数据。 Automate the boring stuff有使用PyPDF2的例子。