我正在尝试获取.doc .docx .odt和.pdf类型文件的字数。 这对于.txt文件来说非常简单,但我怎样才能对上述类型进行字数统计?
我在Ubuntu上使用python django,并尝试在用户通过系统上传文件时对文档单词进行计数。
答案 0 :(得分:4)
首先,您需要阅读.doc .docx .odt和.pdf。
其次,count单词(<2.7 version)。
答案 1 :(得分:0)
鉴于您可以为.txt文件执行此操作,我将假设您知道如何计算单词,并且您只需要知道如何阅读各种文件类型。看看这些库:
PDF:pypdf
doc / docx:this question,python-docx
odt:examples here