如何在pdf和doc文件上运行Hadoop wordcount程序? 当我尝试在pdf文件上运行它时,输出显示奇怪的字符。
答案 0 :(得分:2)
您提到的文件格式是二进制文件格式,不适合作为单词计数的输入,无需将其预处理为纯文本格式。首先,您必须使用其他工具/库将它们转换为纯文本格式。
可能有一些免费的命令行实用程序可以帮助你做到这一点。
答案 1 :(得分:2)
Hadoop不仅限于处理明文文件,您当然可以处理二进制文件,例如SequenceFile
是Hadoop中最常见的二进制格式,但如果您想要自定义二进制格式,您也可以通过实施自己的InputFormat
和RecordReader
。
我建议您查看this great article on processing .doc files in Hadoop和on processing .docx and .pdf files这个符合您需求的{{3}}。