Question

我想使用电子报纸的新闻文本（以pdf格式）与Gensim一起训练模型。从pdf文件中提取文本并处理准备接受培训的文本的最佳方法是什么？有任何示例代码吗？

Answer 1

您可以使用PyPDF2每页提取文本。最简单的代码如下所示：

import PyPDF2

reader = PyPDF2.PdfFileReader("your_file.pdf")

for page in reader.pages:
    text = page.extractText()
    # do something with text