Question

我正在使用python驱动程序获取一些时间序列数据。我想把数据放在一个numpy数组中。

所以问题是转换了pagedResult我进入了一个numpy数组。目前我只做for row in result: out.append(row.price)。由于分页，这非常非常缓慢。我尝试使用statement = SimpleStatement(select_query, fetch_size=10**6)，但我得到了

cassandra.ReadTimeout: code=1200 [Coordinator node timed out waiting for replica nodes' responses] message="Operation timed out - received only 0 responses." info={'received_responses': 0, 'data_retrieved': False, 'required_responses': 1, 'consistency': 1}```

如何快速阅读大约10 ^ 7行并让它们变成numpy？

Answer 1

如果您的数据位于多个分区中，则应异步查询不同的分区。

如果您知道某些边界，则可以从不同的副本一次查询该分区的多个切片。

请参阅文档中的以下页面，了解有关通过并行使用异步查询从python驱动程序中获得最佳性能的建议：

https://github.com/datastax/python-driver/blob/master/docs/performance.rst

Cassandra大蟒蛇查询

1 个答案: