可靠地获取.doc文件的字符数

时间:2010-02-17 02:59:56

标签: ms-word ms-office word-count charactercount

自动计算.doc或.docx文件中的字符和/或单词的可靠方法是什么?

唯一真正的要求是合理准确且合理可靠的数量 它需要处理包含拉丁文字以外的文档,因此对于大多数情况来说,计算字符就足够了 计数不一定需要与Word匹配,但越接近越好 由于有大量不同的应用程序可以生成.doc文件,因此无法计算任何内容,但这种情况需要可以捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须至少99%的时间至少99%准确。

我对所涉及的技术持开放态度,但是可以在* NIX命令行上运行的东西将是非常优先的。

对此有合理的解决方案吗?

4 个答案:

答案 0 :(得分:3)

这是一些link到一些Linux word-to-text转换器。

例如,您可以使用

antiword file.doc | wc

进行计数。

编辑:

这个link表明AbiWord有一个命令行界面,您可以使用它将.docx格式转换为.txt,然后使用“wc”对单词进行计数。 AbiWord确实支持docx格式

答案 1 :(得分:1)

Mac OS X支持读取系统框架中内置的word文件,因此如果你有,那就很容易了。 MacRuby样本:

NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)

更便携 - 虽然它放弃了对docx的支持 - 你可以简单地获得Antiword并做antiword | wc -w

答案 2 :(得分:0)

Microsoft已针对Office二进制文件格式发布了specification。解析.DOC文件看起来并不简单,但要小心,您应该能够获得可靠,可重复的结果。我不知道它与Word显示的内容有多接近 - 这可能(至少部分地)取决于你如何定义“单词” - 例如,你是否将一组数字视为“单词”或不是。可能不会花很多时间来弄清楚Word是如何处理这样的情况的,所以进行一场非常接近的比赛应该不会非常困难。

答案 3 :(得分:0)

如果您将在线应用程序视为解决方案,是的,有一个解决方案 这不太好(关于设计)网站提供单词和字符数:http://allworldphone.com/count-words-characters.htm

我认为没有限制,只需将文档内容复制/粘贴到相应的文本区域并查看结果就不会有问题。

关于100%或99%的准确度,您可以先用自己计算一些(即20-50个单词)进行测试。

我希望这会有所帮助。 问候。克里斯