Question

我正在寻找一个可以从PDF文档中检索字数的模块，可以添加排除规则（例如附录，内容页面，首页等）。

我找到了以下模块：PyPDF2。我可以用它来创建我想要的功能。但不确定如何正确处理排除规则。

以下是从特定页面读取字词的代码段（来自以下eBook）：

import PyPDF2
File = open('somefile.pdf', 'rb')
read = PyPDF2.PdfFileReader(File)
page = pdfReader.getPage(0) # I.e front page
page.extractText() # contains a list of strings

对于字数统计，明显的例外是\n和\t。

一个选项可能是对生成PDF的.tex文件进行字数统计（除非您实际拥有.tex文件，否则并非总是可行）。这种方法的问题在于知道在计数期间忽略哪些关键字。

最后，最简单的方法是复制PDF文件中的所有单词，然后将其粘贴到在线单词计数器中，例如wordcounter.net。

无论如何，我希望我不必实现这个，而只是使用一个已经执行此操作的模块。这样我就可以运行一个脚本并附加，例如.tex文件，并自动添加计数。这很方便。

编辑我找到了good site，其中列出了使用Python操作PDF的不同模块。但是，与我在这里发布的功能无关。

使用排除规则从PDF中检索字数

0 个答案: