应用错误收集

Cassandra setInputSplitSize无法正常工作

时间：2011-08-11 08:23:00

标签： java hadoop mapreduce cassandra

我正在使用Hadoop + Cassandra。我使用setInputSplitSize（1000）来不重载映射器（并从堆内存中接收），默认为64K。总之，我只有2M线要处理。实际上每个拆分应该是~1000行。

问题是一些映射器仍然接收64K行，我不知道为什么。通常有2-3个映射器，状态为4000％64000％而不是100％。当我检查日志时，我发现处理了40K-64K行。它没有崩溃或内存不足，但这2-3个任务在处理过程中开始，并在所有其他任务完成后继续2-3个小时。

这是正常行为吗？我该怎么做才能使分割尺寸变得坚固？

提前谢谢！

1 个答案:

答案 0 :(得分：1)

您使用的是什么版本的Cassandra？如果不是0.7.8或0.8.4，请先尝试升级。

如果您仍然看到此行为，请在https://issues.apache.org/jira/browse/CASSANDRA上创建错误报告。