apache-spark - 在Spark中对大型数据框架进行高效过滤

您是否选中了repartitionByCassandraReplica和joinWithCassandraTable？

https://github.com/datastax/spark-cassandra-connector/blob/75719dfe0e175b3e0bb1c06127ad4e6930c73ece/doc/2_loading.md#performing-efficient-joins-with-cassandra-tables-since-12

joinWithCassandraTable利用java驱动器执行单个驱动器   查询源RDD所需的每个分区，因此不需要   数据将被请求或序列化。这意味着任何之间的联接   可以在不执行完整表的情况下执行RDD和Cassandra表   扫描。在两个共享相同的Cassandra表之间执行时   分区键这不需要在机器之间移动数据。   在所有情况下，此方法将使用源RDD的分区和   数据位置的位置。

方法repartitionByCassandraReplica可用于重定位数据   在RDD中匹配给定表的复制策略和   密钥空间。该方法将查找分区密钥信息   给定RDD然后使用这些值来确定中的哪些节点   群集将负责该数据。

在Spark中对大型数据框架进行高效过滤

1 个答案: