应用错误收集

我编写了一个简单的应用程序，它有一个.csv文件作为输入，简单地将其每一行转换为xml，然后将其作为单行输出。所描述的一切都在mapper中完成。我没有减速器： job.setNumReduceTasks（0）;

我在本地运行所有内容，我只是在研究Hadoop。我想探索内存消耗。因此，我没有为堆设置任何限制：非常大的Xmx。我尝试处理一个巨大的文件：2.5G。

我使用Java Mission Control分析器。结果非常有趣（至少对我而言）。堆从未超过3.3G。但是垃圾收集之前的最大值始终与3.3G的值相同。在GC之后它下降到零。

我的问题可能有点傻，但3.3-2.5 = 0.8G的这种开销是用于什么？不幸的是，JMC的信息对它没有帮助。它显示了明显的Hot Classes：String和char。如果你把我指向使用大部分内存的hadoop类，那就太好了。