Question

您好我正在使用datastax enterprise进行hadoop和cassandra集成。我已经配置了3个cassandra节点和2个分析节点（将运行hive）。

所以我很困惑，如果有一些数据在蜂巢节点上没有，但在cassandra节点上，它会在map reduce或map reduce期间不处理，会从cassandra节点拉取数据并运行map reduce。请帮忙

所以我有4台机器（复制因子3）

machine 1) cassandra node|token value=0         |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5  |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)

他们不应该每人拥有25％此外，我现在认为数据将在不仅仅是3个节点的所有节点中复制

Answer 1

DSE将确保将数据集的完整副本复制到您指定为分析的任何节点集。所以它通常不是问题。如果有足够的分析节点发生故障，则可能需要转到非分析节点才能获取数据......但建议您更好地将分析节点重新联机。

使用cassandra集群上的hive映射减少

1 个答案: