Question

我在spark中处理我的cassandra数据。我正在使用＆＃34; spark-cassandra-connector＆＃34;从cassandra获取数据到RDD。

我想使用spark 2. * s数据集，因为数据集会提高我的表现。任何想法我该怎么做？

任何代码段都会提供很好的帮助

Answer 1

使用

spark.read.format("org.apache.spark.sql.cassandra")
   .options(Map("keyspace" -> "your_keyspake", "table" -> "your_table"))
   .load.filter(conditions)

您不必将rdd转换为数据集。

使用数据集的Spark-Cassandra连接

1 个答案: