我在aws云中使用datastax dse启动集群spark cassandra。所以我的数据集存储在S3中。但我不知道如何将数据从S3传输到我的集群cassandra。请帮帮我
答案 0 :(得分:1)
详细信息取决于您的文件格式和C *数据模型,但它可能如下所示:
将文件从s3读入RDD
val rdd = sc.textFile(" s3n://mybucket/path/filename.txt.gz")
操纵rdd
将rdd写入cassandra表:
rdd.saveToCassandra(" test"," kv",SomeColumns(" key"," value"))
答案 1 :(得分:1)