Cassandra在不同的运行中显示不同的结果

时间:2016-08-21 16:31:55

标签: cassandra spark-cassandra-connector

我从火花中摄取了2亿张cassandra的记录。使用spark-cassandra连接器。

我遇到了以下两个问题。对不起,主题只涉及一个问题。

1)com.datastax.driver.core.exceptions.WriteFailureException:在一致性LOCAL_QUORUM的写入查询期间Cassandra失败(需要1个响应,但只有0个副本响应,1个失败)

我发现,具有更高的复制因子(最好是3)可以解决这个问题。我仍然面临同样的问题。

我是否需要重启群集?

第二&重要的是我跑了火花工作来做我桌上的count(*)。 Spark工作没有任何错误。但是,每次我的工作给我不同的计数。 我强烈认为cassandra非常稳定。也许我可能会错过一些重要的部分。

My actual number of rows: 286,530,307 
My first run result: 285,508,150
2nd Run: 285,174,293
3rd Run: 285,232,533

为什么我在不同的跑步中得到不同的结果。?

我的密钥空间创建:

CREATE KEYSPACE IF NOT EXISTS db_research WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 };

我的表有28列并使用

我的错误中是否有任何一个错误触发了这样的结果。即使有错误,每次都应该显示相同的数量。我缺少什么。?

1 个答案:

答案 0 :(得分:0)

尝试运行nodetool repair - 这会在群集中同步副本:https://docs.datastax.com/en/cassandra/2.0/cassandra/operations/ops_repair_nodes_c.html