如何计算上传文件PDF,Doc,Xls,Csv等中的单词字符或句子

时间:2010-12-30 14:38:26

标签: java php zend-framework

如何计算PDF,Doc,Xls,Csv等上传文件中的单词。使用PHP,Zend Framework或基于CLI的Java触发器吗?

2 个答案:

答案 0 :(得分:1)

这是第三方应用http://www.globalrendering.com/download.html。您可以为它创建一个简单的包装器。至于wc,它对那些文件类型不准确。见http://ubuntuforums.org/showthread.php?t=566407

答案 1 :(得分:1)

首先,你应该看看tika 这是用Java编写的,是免费的(Apache许可),可以将您提到的所有格式转换为文本。在那之后,字数应该是微不足道的。

您还可以使用linux命令行实用程序转换为文本,并在它们周围编写一个简单的包装器。

(由于缺乏声誉,我无法链接到这些。请使用您的Google-fu。)

  • pdf:pdftotext(xpdf的一部分)。另见SuperUser上的问题#221359。
  • doc(x):abiword,catdoc,antiword,docxtotxt ...另请参阅SuperUser上的问题165978.
  • xls(几乎所有内容,但需要OpenOffice):unoconv