如何在pdf和doc文件上运行Hadoop wordcount程序?

时间:2013-03-08 20:25:07

标签: java pdf hadoop word-count

如何在pdf和doc文件上运行Hadoop wordcount程序? 当我尝试在pdf文件上运行它时,输出显示奇怪的字符。

2 个答案:

答案 0 :(得分:2)

您提到的文件格式是二进制文件格式,不适合作为单词计数的输入,无需将其预处理为纯文本格式。首先,您必须使用其他工具/库将它们转换为纯文本格式。

可能有一些免费的命令行实用程序可以帮助你做到这一点。

答案 1 :(得分:2)

Hadoop不仅限于处理明文文件,您当然可以处理二进制文件,例如SequenceFile是Hadoop中最常见的二进制格式,但如果您想要自定义二进制格式,您也可以通过实施自己的InputFormatRecordReader

来实现

我建议您查看this great article on processing .doc files in Hadoopon processing .docx and .pdf files这个符合您需求的{{3}}。