标签: python hadoop mapreduce bigdata
如果我有一个从多个csv文件读取并生成键值对的map.py文件,如何将这些文件传递给我的reducer.py并在本地测试?
答案 0 :(得分:1)
如果您正在使用hadoop流媒体,那么您可以在本地测试您的脚本:
cat *.csv | map.py | sort -k1,1 | reducer.py
要将数据从mapper传递到hadoop-streaming中的reducer,只需将"<key>\t<value>"写入stdout
"<key>\t<value>"