我想使用电子报纸的新闻文本(以pdf格式)与Gensim一起训练模型。从pdf文件中提取文本并处理准备接受培训的文本的最佳方法是什么?有任何示例代码吗?
答案 0 :(得分:1)
您可以使用PyPDF2每页提取文本。最简单的代码如下所示:
import PyPDF2
reader = PyPDF2.PdfFileReader("your_file.pdf")
for page in reader.pages:
text = page.extractText()
# do something with text