Question

如果数据规模庞大且不断增长，如何使用Spark将数据从Cassandra的表写入CSV文件？这个问题是规模问题，由于我自己的代码，没有遇到任何与基础设施相关的问题；因此，需要经过测试的工具和方法。同样，就速度而言，火花是最佳选择吗？

Cassandra中的表模式为：

c_sql = "CREATE TABLE IF NOT EXISTS {} (id varchar, version int, row varchar, row_hash varchar, PRIMARY KEY((version), id))".format(
            self.table_name
        )

Answer 1

要将数据读入数据帧，可以使用Datastax Spark-Cassandra连接器。以下是一些示例链接，这些示例如何将Cassandra中的数据读取到数据帧中：https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

<div class="parent">
  <div class="child"></div>
</div>

然后您可以将数据写入csv：

daraframe=spark.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="kv", keyspace="test")\
    .load()

如何通过使用Spark将Cassandra的表作为输入来编写csv文件？

1 个答案: