Dumbo(Python)/ Hadoop意外输出

时间:2013-03-25 09:28:27

标签: python encoding hadoop

我正在尝试使用dumbo(Python)/ haddop执行以下代码 https://github.com/klbostee/dumbo/wiki/Short-tutorial#jobs-and-runners

我正确地遵循了教程,我已经完成了每一步,但是当我在hadoop环境中运行代码时,我获得如下输出:

SEQ / org.apache.hadoop.typedbytes.TypedBytesWritable / org.apache.hadoop.typedbytes.TypedBytesWritableޭǡq%氧气172.16.1.10172.16.1.12172.16 .1.30

它应该返回带有连接计数器的IP地址列表。 为什么出现这些角色?这是编码问题吗?我如何解决它?谢谢

此外,如果我在本教程中尝试其他程序,我也遇到同样的问题。

1 个答案:

答案 0 :(得分:0)

我自己回答。该输出是Dumbo的序列化形式。没有错误。

要将其转换为可读文本,它就足够了以下命令(答案在教程中!我没有看到它)

dumbo cat ipcounts/part* -hadoop /usr/local/hadoop | sort -k2,2nr | head -n 5