Cassandra大蟒蛇查询

时间:2014-12-10 00:35:00

标签: python numpy cassandra cassandra-2.0 datastax

我正在使用python驱动程序获取一些时间序列数据。我想把数据放在一个numpy数组中。

所以问题是转换了pagedResult我进入了一个numpy数组。 目前我只做for row in result: out.append(row.price)。由于分页,这非常非常缓慢。我尝试使用statement = SimpleStatement(select_query, fetch_size=10**6),但我得到了

cassandra.ReadTimeout: code=1200 [Coordinator node timed out waiting for replica nodes' responses] message="Operation timed out - received only 0 responses." info={'received_responses': 0, 'data_retrieved': False, 'required_responses': 1, 'consistency': 1}```

如何快速阅读大约10 ^ 7行并让它们变成numpy?

1 个答案:

答案 0 :(得分:3)

如果您的数据位于多个分区中,则应异步查询不同的分区。

如果您知道某些边界,则可以从不同的副本一次查询该分区的多个切片。

请参阅文档中的以下页面,了解有关通过并行使用异步查询从python驱动程序中获得最佳性能的建议:

https://github.com/datastax/python-driver/blob/master/docs/performance.rst