从pdf文件中提取文本以使用Gensim建立模型

时间:2018-12-11 16:36:43

标签: python-3.x nlp gensim

我想使用电子报纸的新闻文本(以pdf格式)与Gensim一起训练模型。从pdf文件中提取文本并处理准备接受培训的文本的最佳方法是什么?有任何示例代码吗?

1 个答案:

答案 0 :(得分:1)

您可以使用PyPDF2每页提取文本。最简单的代码如下所示:

import PyPDF2

reader = PyPDF2.PdfFileReader("your_file.pdf")

for page in reader.pages:
    text = page.extractText()
    # do something with text