我在spark中处理我的cassandra数据。我正在使用" spark-cassandra-connector"从cassandra获取数据到RDD。
我想使用spark 2. * s数据集,因为数据集会提高我的表现。任何想法我该怎么做?
任何代码段都会提供很好的帮助
答案 0 :(得分:3)
使用
spark.read.format("org.apache.spark.sql.cassandra")
.options(Map("keyspace" -> "your_keyspake", "table" -> "your_table"))
.load.filter(conditions)
您不必将rdd转换为数据集。