Pyspark在cassandra中使用IN查询给出错误

时间:2017-07-15 05:35:12

标签: apache-spark cassandra pyspark

我在Cassandra服务器上有一个大的Cassandra密钥空间(大约20 GB),主服务器为16GB ram。我正在尝试运行IN查询

"select colA colB colC where colA in {}".foramt( variable );

colA是群集密钥。

variable是一个python数据类型,有大约500K个条目。目前我面临的两个问题首先是它完全不适用于上述查询,并且对于大约20K的长度变量,任何可以完成的优化大约需要20分钟。

0 个答案:

没有答案