如果我有一个带输入和输出的命令行程序,如下所示:
md5sum < hadoop-2.7.2.tar.gz
c442bd89b29cab9151b5987793b94041 -
如何使用Hadoop运行它? 这似乎是一个非常简单的问题,但我尝试过的解决方案都没有产生正确的输出:
也许,我只是无法正确遵循说明。所以,请详细解释或至少在有用的文档中说明。
答案 0 :(得分:0)
您可以使用WholeFileInputFormat和hadoop streaming。您可能遇到的问题是,如果您有想要完全阅读的大文件 - 但如果您强烈要求将整个文件作为program
的输入,那么您应该确保输入合理或找到一个更好的算法,完全接受MR的分裂和可扩展性。