我可以在不设置HDFS的情况下运行Hadoop流应用程序吗?我想在本地计算机上测试Hadoop流应用程序。特别是我正在尝试遵循this tutorial的说明,但是,我不想在DFS上为输入/输出指定路径,而是要指定本地路径。
hadoop-streaming.jar的帮助页面指出-input/-output
值在DFS上。我在某个地方错过了一个选项吗?
答案 0 :(得分:0)
从stdin读取流脚本并写入stdout。以下脚本可用于使流脚本从本地文件系统读取。请注意,它不能以分布式方式工作,主要用于脚本的单元测试。
cat ./input.txt | ./word_count_map.py | sort -k1,1 | ./word_cound_reduce.py> output.txt的