使用cassandra集群上的hive映射减少

时间:2013-02-21 07:53:12

标签: hadoop cassandra hive datastax-enterprise

您好我正在使用datastax enterprise进行hadoop和cassandra集成。 我已经配置了3个cassandra节点和2个分析节点(将运行hive)。

所以我很困惑,如果有一些数据在蜂巢节点上没有,但在cassandra节点上,它会在map reduce或map reduce期间不处理,会从cassandra节点拉取数据并运行map reduce。请帮忙

所以我有4台机器(复制因子3)

machine 1) cassandra node|token value=0         |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5  |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)

他们不应该每人拥有25% 此外,我现在认为数据将在不仅仅是3个节点的所有节点中复制

1 个答案:

答案 0 :(得分:2)

DSE将确保将数据集的完整副本复制到您指定为分析的任何节点集。所以它通常不是问题。如果有足够的分析节点发生故障,则可能需要转到非分析节点才能获取数据......但建议您更好地将分析节点重新联机。