应用错误收集

我是hadoop的新手。这是高级人员要求检查我有多善于管理hadoop的情景。

情形：您需要为从任何源将数据导入hdfs的客户端提供支持。您没有计算机或他正在提取的文件，只需要通过电话支持。假设他正在导入700个文件，但导入后hdfs中只包含550个文件。剩下的文件出错了什么地方？你如何设法提供不同的解决方案，要求他检查并提取hdfs中正确数量的数据？客户不知道任何意味着他不是开发人员。因此，如果您提供任何解决方案，您需要简要介绍一下。

他可能会使用sqoop，MR，hive，pig，hbase中的任何组件。请简要介绍一下组件的解决方案。此外，它可能不是来自组件，它可能是配置设置。

您需要提供不同的可能性，要求他检查或提供准确的解决方案。

提前致谢。

客户端使用什么命令来提取数据？
客户端用什么命令检查HDFS上的文件数量？
使用HDFS WebUI http://<namenode>:50070检查名称节点和数据节点的运行状况
使用HDFS WebUI检查文件是否真的丢失。从那里他可以轻松浏览FS并查看文件内容，他还可以通过将文件夹内容复制到记事本来计算文件数量
如果客户使用了hdfs dfs -put命令，他应该有一个数据上传日志（它将错误转储到stdout，所以他应该在他的控制台中看到Java堆栈跟踪）。询问他是否看到任何问题
在同一个WebUI中，您有一个指向namenode日志的链接。要求客户打开文件hadoop-hdfs-namenode-*.log，复制到记事本，滚动到最后并搜索ERROR（区分大小写）颠倒，为您提供有关他在那里看到的错误的信息

事实上，整体逻辑真的取决于前两个答案，因为“加载文件”到HDFS可能会以多种方式完成，而进一步对话的逻辑实际上取决于客户使用的是什么

当导入的数据与原始数据不同时，如何给出不同的解决方案？

1 个答案: