我正在寻找一个可以从PDF文档中检索字数的模块,可以添加排除规则(例如附录,内容页面,首页等)。
我找到了以下模块:PyPDF2。我可以用它来创建我想要的功能。但不确定如何正确处理排除规则。
以下是从特定页面读取字词的代码段(来自以下eBook):
import PyPDF2
File = open('somefile.pdf', 'rb')
read = PyPDF2.PdfFileReader(File)
page = pdfReader.getPage(0) # I.e front page
page.extractText() # contains a list of strings
对于字数统计,明显的例外是\n
和\t
。
一个选项可能是对生成PDF的.tex
文件进行字数统计(除非您实际拥有.tex
文件,否则并非总是可行)。这种方法的问题在于知道在计数期间忽略哪些关键字。
最后,最简单的方法是复制PDF文件中的所有单词,然后将其粘贴到在线单词计数器中,例如wordcounter.net。
无论如何,我希望我不必实现这个,而只是使用一个已经执行此操作的模块。这样我就可以运行一个脚本并附加,例如.tex
文件,并自动添加计数。这很方便。
编辑我找到了good site,其中列出了使用Python操作PDF的不同模块。但是,与我在这里发布的功能无关。