Question

我在HDInsight中运行了示例wordcount应用程序命令运行成功，但我找不到输出。我跑的命令是

hadoop jar hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /user/joe/WordCountOutput

我期待在文件系统上创建一些东西。但我没有看到/user/joe/被创建。

请建议。

Answer 1

HDInsight默认使用Azure blob存储作为其HDFS存储，因此您的输出位于与群集关联的存储帐户中。您可以使用CloudXplorer之类的内容轻松读取blob存储帐户并查找此数据。它将位于/ user / joe / WordCountOutput

下的默认WABS容器中

您也可以像这样运行命令，以便更好地控制输出位置

hadoop jar hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt wabs://<contatiner>@<storageaccount>.blob.core.windows.net/user/joe/WordCountOutput

Answer 2

它不在您计算机的文件系统中，而是在Azure blobs上。通常，Hadoop MapReduce使用Hadoop Distributed File System (HDFS)，但正如Thomas Jungblut在他的评论中正确指出的那样，Azure blob已经完全取代了HDInsight中的HDFS。您仍然可以使用hdfs shell commands访问输出，例如：

hadoop dfs -ls /user/jow/WordCountOutput

也许HDInsight提供了更多浏览这个文件系统的方法（参见Andrew Moll's answer），但我不熟悉它们，这实际上已经非常简单了。

HDInsight hadoop-mapreduce-examples.jar输出在哪里？

2 个答案: