标签: hadoop
我在Hadoop附带的41 GB文件(默认配置设置)上运行字数ex(版本:0.20.3-dev)。但是这段代码为小文件提供了正确的输出,但它为41 GB文件提供了一些垃圾。为什么会这样?
答案 0 :(得分:0)
感谢大家。它可能会创建错误的输出,因为默认情况下Hadoop不知道您的文件格式,它会将每个文件视为一个简单的文本文件。