我试图制作一个脚本,通过使用Hadoop仅限流映射的作业通过Unix过滤器管理HDFS文件。我不关心输入分割,我的文件都是压缩的。我不关心键/值对,而且我有一点时间摆脱标签hadoop想要坚持我的输出。我更喜欢简单的原始二进制数据输入和输出,但我可以使用UTF-8文本或类似的行。
我使用typedbytes等尝试了mapreduce.output.textoutputformat.separator
和stream.map.output.field.separator
的各种设置。这些标签只是不会消失。有什么想法吗?
我使用CDH 4.1和YARN(MRv2),如果这有所不同。