我是hadoop的新手。这是高级人员要求检查我有多善于管理hadoop的情景。
情形: 您需要为从任何源将数据导入hdfs的客户端提供支持。您没有计算机或他正在提取的文件,只需要通过电话支持。 假设他正在导入700个文件,但导入后hdfs中只包含550个文件。剩下的文件出错了什么地方? 你如何设法提供不同的解决方案,要求他检查并提取hdfs中正确数量的数据?客户不知道任何意味着他不是开发人员。因此,如果您提供任何解决方案,您需要简要介绍一下。
他可能会使用sqoop,MR,hive,pig,hbase中的任何组件。请简要介绍一下组件的解决方案。 此外,它可能不是来自组件,它可能是配置设置。
您需要提供不同的可能性,要求他检查或提供准确的解决方案。
提前致谢。
答案 0 :(得分:0)
http://<namenode>:50070
检查名称节点和数据节点的运行状况hdfs dfs -put
命令,他应该有一个数据上传日志(它将错误转储到stdout,所以他应该在他的控制台中看到Java堆栈跟踪)。询问他是否看到任何问题hadoop-hdfs-namenode-*.log
,复制到记事本,滚动到最后并搜索ERROR(区分大小写)颠倒,为您提供有关他在那里看到的错误的信息事实上,整体逻辑真的取决于前两个答案,因为“加载文件”到HDFS可能会以多种方式完成,而进一步对话的逻辑实际上取决于客户使用的是什么