如果数据规模庞大且不断增长,如何使用Spark将数据从Cassandra的表写入CSV文件?这个问题是规模问题,由于我自己的代码,没有遇到任何与基础设施相关的问题;因此,需要经过测试的工具和方法。同样,就速度而言,火花是最佳选择吗?
Cassandra中的表模式为:
c_sql = "CREATE TABLE IF NOT EXISTS {} (id varchar, version int, row varchar, row_hash varchar, PRIMARY KEY((version), id))".format(
self.table_name
)
答案 0 :(得分:2)
要将数据读入数据帧,可以使用Datastax Spark-Cassandra连接器。以下是一些示例链接,这些示例如何将Cassandra中的数据读取到数据帧中:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md
<div class="parent">
<div class="child"></div>
</div>
然后您可以将数据写入csv:
daraframe=spark.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="kv", keyspace="test")\
.load()