如何在python中对word文档进行单词计数?

时间:2011-09-23 12:56:51

标签: python django word-count

我正在尝试获取.doc .docx .odt和.pdf类型文件的字数。 这对于.txt文件来说非常简单,但我怎样才能对上述类型进行字数统计?

我在Ubuntu上使用python django,并尝试在用户通过系统上传文件时对文档单词进行计数。

2 个答案:

答案 0 :(得分:4)

首先,您需要阅读.doc .docx .odt.pdf

其次,count单词(<2.7 version)。

答案 1 :(得分:0)

鉴于您可以为.txt文件执行此操作,我将假设您知道如何计算单词,并且您只需要知道如何阅读各种文件类型。看看这些库:

PDF:pypdf

doc / docx:this questionpython-docx

odt:examples here