如何将PyPDF2和RAKE一起用于关键字提取?

时间:2018-07-15 11:24:26

标签: python python-3.x pypdf2

我正在从给定的PDF文档中提取关键字。我正在使用PyPDF2读取PDF文档,然后使用pdfReaderObject从文档中提取文本。但是,如果我将PyPDF2和RAKE一起使用,则它会逐页显示关键字(这会导致问题,因为单词在其他页面中会重复出现)。因此,我要做的是阅读整个PDF文档,并将其文本保存到另一个文件“ abc.txt”中,然后将该文件与RAKE一起使用以进行关键字提取。但是,由于这需要我为每个其他PDF文档创建一个新的.txt文件,所以我想知道是否可以通过PyPDF2本身执行任何操作而无需创建另一个.txt文件? 我正在使用Python。

0 个答案:

没有答案