Question

我有x GB（x从25-40 GB不等）的每日数据驻留在cassandra中，我想将其导出到文件中。所以，我来过这个SO link。使用它可以导出具有格式的查询数据：

select column1, column2 from table where condition = xy

所以，我在cron作业中安排了相同的方法。但是由于大量数据进程在写入文本文件时被杀死。那么，在给定查询格式的情况下，还有哪些其他选项可以导出大量数据。

Answer 1

是否已着手使用Spark检索和处理您的数据？如果您使用的是Datastax，则将其作为isntallation（DSE Analytics）的一部分。使用Spark，您应该能够从C *实例读取数据并将其写入文本文件，而不受直接CQL语句的限制。

Answer 2

Hava查看下面的python脚本，您可以使用scralling来从cassandra获取大量数据而不会超时。 query =“SELECT * FROM table_name”，statement = SimpleStatement（query，fetch_size = 100），results = session.execute（statement），对于session_cute（statement）中的user_row :,对于user_row中的rw :,这是为我非常有效率。我没有提到cassandra连接，我认为我们可以在python中获取cassandra连接的代码。

将数据从Cassandra查询导出到文件

2 个答案: