应用错误收集

我的3节点cassandra群集，我能够使用大多数在10％至15％范围内的CPU进行写入。

我需要运行一些火花作业，在该作业中，需要每周扫描全部分区（将来大约20-30 K可能会增加更多）并进行某种类型的聚集。由于我具有有关分区键的信息，因此我在cassandra中使用DirectJoin

但是，当我运行在3-4分钟内完成的spark应用程序时。

我每个分区仅读取2列（int，String），大约1440个条目。

我的理解是，因为我们正在按分区键读取，所以这不会导致如此高的CPU 解释计划确认直接参与

为避免CPU占用过多和快速读取数据，我有哪些选择？