我有x GB(x从25-40 GB不等)的每日数据驻留在cassandra中,我想将其导出到文件中。所以,我来过这个SO link。使用它可以导出具有格式的查询数据:
select column1, column2 from table where condition = xy
所以,我在cron作业中安排了相同的方法。但是由于大量数据进程在写入文本文件时被杀死。那么,在给定查询格式的情况下,还有哪些其他选项可以导出大量数据。
答案 0 :(得分:1)
是否已着手使用Spark检索和处理您的数据?如果您使用的是Datastax,则将其作为isntallation(DSE Analytics)的一部分。使用Spark,您应该能够从C *实例读取数据并将其写入文本文件,而不受直接CQL语句的限制。
答案 1 :(得分:0)
Hava查看下面的python脚本,您可以使用scralling来从cassandra获取大量数据而不会超时。 query =“SELECT * FROM table_name”,statement = SimpleStatement(query,fetch_size = 100),results = session.execute(statement),对于session_cute(statement)中的user_row :,对于user_row中的rw :,这是为我非常有效率。我没有提到cassandra连接,我认为我们可以在python中获取cassandra连接的代码。