我从火花中摄取了2亿张cassandra的记录。使用spark-cassandra连接器。
我遇到了以下两个问题。对不起,主题只涉及一个问题。
1)com.datastax.driver.core.exceptions.WriteFailureException
:在一致性LOCAL_QUORUM
的写入查询期间Cassandra失败(需要1个响应,但只有0个副本响应,1个失败)
我发现,具有更高的复制因子(最好是3)可以解决这个问题。我仍然面临同样的问题。
我是否需要重启群集?
第二&重要的是我跑了火花工作来做我桌上的count(*)
。 Spark工作没有任何错误。但是,每次我的工作给我不同的计数。
我强烈认为cassandra非常稳定。也许我可能会错过一些重要的部分。
My actual number of rows: 286,530,307
My first run result: 285,508,150
2nd Run: 285,174,293
3rd Run: 285,232,533
为什么我在不同的跑步中得到不同的结果。?
我的密钥空间创建:
CREATE KEYSPACE IF NOT EXISTS db_research WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 };
我的表有28列并使用
我的错误中是否有任何一个错误触发了这样的结果。即使有错误,每次都应该显示相同的数量。我缺少什么。?
答案 0 :(得分:0)
尝试运行nodetool repair
- 这会在群集中同步副本:https://docs.datastax.com/en/cassandra/2.0/cassandra/operations/ops_repair_nodes_c.html