我正在尝试使用dumbo(Python)/ haddop执行以下代码 https://github.com/klbostee/dumbo/wiki/Short-tutorial#jobs-and-runners
我正确地遵循了教程,我已经完成了每一步,但是当我在hadoop环境中运行代码时,我获得如下输出:
SEQ / org.apache.hadoop.typedbytes.TypedBytesWritable / org.apache.hadoop.typedbytes.TypedBytesWritableޭǡq%氧气172.16.1.10172.16.1.12172.16 .1.30
它应该返回带有连接计数器的IP地址列表。 为什么出现这些角色?这是编码问题吗?我如何解决它?谢谢
此外,如果我在本教程中尝试其他程序,我也遇到同样的问题。
答案 0 :(得分:0)
我自己回答。该输出是Dumbo的序列化形式。没有错误。
要将其转换为可读文本,它就足够了以下命令(答案在教程中!我没有看到它)
dumbo cat ipcounts/part* -hadoop /usr/local/hadoop | sort -k2,2nr | head -n 5