使用排除规则从PDF中检索字数

时间:2016-10-16 11:51:14

标签: python regex pdf pdf-generation

我正在寻找一个可以从PDF文档中检索字数的模块,可以添加排除规则(例如附录,内容页面,首页等)。

我找到了以下模块:PyPDF2。我可以用它来创建我想要的功能。但不确定如何正确处理排除规则。

以下是从特定页面读取字词的代码段(来自以下eBook):

import PyPDF2
File = open('somefile.pdf', 'rb')
read = PyPDF2.PdfFileReader(File)
page = pdfReader.getPage(0) # I.e front page
page.extractText() # contains a list of strings

对于字数统计,明显的例外是\n\t

一个选项可能是对生成PDF的.tex文件进行字数统计(除非您实际拥有.tex文件,否则并非总是可行)。这种方法的问题在于知道在计数期间忽略哪些关键字。

最后,最简单的方法是复制PDF文件中的所有单词,然后将其粘贴到在线单词计数器中,例如wordcounter.net

无论如何,我希望我不必实现这个,而只是使用一个已经执行此操作的模块。这样我就可以运行一个脚本并附加,例如.tex文件,并自动添加计数。这很方便。

编辑我找到了good site,其中列出了使用Python操作PDF的不同模块。但是,与我在这里发布的功能无关。

0 个答案:

没有答案