Question

我一直在使用pyspark-cassandra 0.1.5和spark 1.4.1（最新版本）。

但正常计算1519784 cassandra的记录需要70秒。

从stackoverflow中的this问题开始，我开始了解＆＃34; spark.cassandra.input.split.size_in_mb ＆＃34;在定义SparkConf时，将有助于缩短时间。

但是我得到以下错误，同时在我的python代码中包含相同的错误

py4j.protocol.Py4JJavaError: An error occurred while calling o93.cassandraTable.
: com.datastax.spark.connector.util.ConfigCheck$ConnectorConfigurationException: Invalid Config Variables
Only known spark.cassandra.* variables are allowed when using the Spark Cassandra Connector.
spark.cassandra.input.split.size_in_mb is not a valid Spark Cassandra Connector variable.
Possible matches:
spark.cassandra.input.split.size

我相信我做的事情很傻。我是Spark的新手，请帮忙。

Answer 1

pyspark-cassandra正在使用Spark Cassandra连接器1.2.x，在该版本中，该参数名为spark.cassandra.input.split.size。请参阅那里的错误消息，告诉您...split_size_in_mb无效，但您的意思可能是...split.size。

spark.cassandra.input.split.size_in_mb不是有效的Spark Cassandra Connector变量

1 个答案: