使用Hadoop流与不受干扰的二进制数据

时间:2013-02-06 15:13:00

标签: hadoop hadoop-streaming

我试图制作一个脚本,通过使用Hadoop仅限流映射的作业通过Unix过滤器管理HDFS文件。我不关心输入分割,我的文件都是压缩的。我不关心键/值对,而且我有一点时间摆脱标签hadoop想要坚持我的输出。我更喜欢简单的原始二进制数据输入和输出,但我可以使用UTF-8文本或类似的行。

我使用typedbytes等尝试了mapreduce.output.textoutputformat.separatorstream.map.output.field.separator的各种设置。这些标签只是不会消失。有什么想法吗?

我使用CDH 4.1和YARN(MRv2),如果这有所不同。

0 个答案:

没有答案