直接连接时Spark Cassandra连接器的CPU峰值

时间:2020-08-03 15:45:44

标签: apache-spark datastax spark-cassandra-connector

我的3节点cassandra群集,我能够使用大多数在10%至15%范围内的CPU进行写入。

我需要运行一些火花作业,在该作业中,需要每周扫描全部分区(将来大约20-30 K可能会增加更多)并进行某种类型的聚集。由于我具有有关分区键的信息,因此我在cassandra中使用DirectJoin

但是,当我运行在3-4分钟内完成的spark应用程序时。

  • 当我在cassandra DB CPU上运行我的Spark集群时,3-4分钟触摸100%
  • 当我从单个2核spark实例运行时(不在DB计算机上),CPU触摸75%

我每个分区仅读取2列(int,String),大约1440个条目。

我的理解是,因为我们正在按分区键读取,所以这不会导致如此高的CPU 解释计划确认直接参与

为避免CPU占用过多和快速读取数据,我有哪些选择?

0 个答案:

没有答案