Question

我在Hadoop上运行一个简单的计数程序。我的输入文件大小为4 GB。由于某种原因，工作失败并出现错误：

但是，如果我尝试使用小输入文件（100MB）的相同代码，它可以正常工作。我是新手，我似乎无法找到任何可行的解决方案。我的设置是Psuedo Distributed。

我是否需要进行任何配置更改？我已经根据hadoop文档提供了Psuedo分布式设置的标准配置。

任何帮助都将受到高度赞赏。

Answer 1

在您发布的错误堆栈跟踪中，ConnectionRefused异常是针对JobHistoryServer的。

对于伪分布式设置，启动JobHistoryServer不需要进行任何配置更改。使用此命令启动它，

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver