我目前对词云这个概念并不陌生,并找到了一种将文本传递到词云的简单方法。但是我想将pdf传递给python中的wordcloud.generate()函数。我正在使用下面的代码,并且能够为特定页面创建云,pdfReader.numPages这一行为我提供了页面数,但是我无法弄清楚如何对其进行循环。
示例代码
isInvalid()
答案 0 :(得分:0)
好的,所以我想通了,但是通过其他方式发布答案仅供参考,但是最欢迎其他最佳解决方案。
循环代码
pdfReader = PyPDF4.PdfFileReader(open('ReadyPlayerOne.pdf', 'rb'))
pageData = ''
for page in pdfReader.pages:
pageData += page.extractText()
print(pageData)