标签: python text-extraction
我有一份包含不同页数和演示文稿的pdf文件列表。 每个文件都包含我需要提取的信息列表。但问题是信息包含在不同类型的短语和语法中。 我需要知道我是否需要构建一台机器学习这样做,如果算法和技术适合我的情况。 注意:我有一个巨大的pdf文件数据集用于训练模型。
答案 0 :(得分:0)
因此,如果您想在Python中执行此操作,似乎PyPDF2是可行的方法。您应该能够从PDF中读入并提取所需的文本数据。 Automate the boring stuff有使用PyPDF2的例子。