如何通过使用Spark将Cassandra的表作为输入来编写csv文件?

时间:2019-01-20 14:05:08

标签: python python-3.x csv apache-spark cassandra

如果数据规模庞大且不断增长,如何使用Spark将数据从Cassandra的表写入CSV文件?这个问题是规模问题,由于我自己的代码,没有遇到任何与基础设施相关的问题;因此,需要经过测试的工具和方法。同样,就速度而言,火花是最佳选择吗?

Cassandra中的表模式为:

c_sql = "CREATE TABLE IF NOT EXISTS {} (id varchar, version int, row varchar, row_hash varchar, PRIMARY KEY((version), id))".format(
            self.table_name
        )

1 个答案:

答案 0 :(得分:2)

要将数据读入数据帧,可以使用Datastax Spark-Cassandra连接器。以下是一些示例链接,这些示例如何将Cassandra中的数据读取到数据帧中:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

<div class="parent">
  <div class="child"></div>
</div>

然后您可以将数据写入csv:

daraframe=spark.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="kv", keyspace="test")\
    .load()