如何从S3导入数据集到cassandra?

时间:2015-02-09 19:34:23

标签: python cassandra datastax-enterprise

我在aws云中使用datastax dse启动集群spark cassandra。所以我的数据集存储在S3中。但我不知道如何将数据从S3传输到我的集群cassandra。请帮帮我

2 个答案:

答案 0 :(得分:1)

详细信息取决于您的文件格式和C *数据模型,但它可能如下所示:

  • 将文件从s3读入RDD

    val rdd = sc.textFile(" s3n://mybucket/path/filename.txt.gz")

  • 操纵rdd

  • 将rdd写入cassandra表:

    rdd.saveToCassandra(" test"," kv",SomeColumns(" key"," value"))

答案 1 :(得分:1)

@ phact所描述的内容是使用DataStax Enterprise附带的Spark API,如果ETL工作需要与加载一起完成,则可能非常有用。 仅限加载,您可以使用sstableloader批量加载功能。这是一个tutorial,可以帮助您入门。