我的3节点cassandra群集,我能够使用大多数在10%至15%范围内的CPU进行写入。
我需要运行一些火花作业,在该作业中,需要每周扫描全部分区(将来大约20-30 K可能会增加更多)并进行某种类型的聚集。由于我具有有关分区键的信息,因此我在cassandra中使用DirectJoin
但是,当我运行在3-4分钟内完成的spark应用程序时。
我每个分区仅读取2列(int,String),大约1440个条目。
我的理解是,因为我们正在按分区键读取,所以这不会导致如此高的CPU 解释计划确认直接参与
为避免CPU占用过多和快速读取数据,我有哪些选择?