spark.cassandra.input.split.size_in_mb不是有效的Spark Cassandra Connector变量

时间:2015-09-03 08:58:06

标签: python cassandra apache-spark pyspark

我一直在使用pyspark-cassandra 0.1.5和spark 1.4.1(最新版本)。

但正常计算1519784 cassandra的记录需要70秒。

从stackoverflow中的this问题开始,我开始了解" spark.cassandra.input.split.size_in_mb "在定义SparkConf时,将有助于缩短时间。

但是我得到以下错误,同时在我的python代码中包含相同的错误

py4j.protocol.Py4JJavaError: An error occurred while calling o93.cassandraTable.
: com.datastax.spark.connector.util.ConfigCheck$ConnectorConfigurationException: Invalid Config Variables
Only known spark.cassandra.* variables are allowed when using the Spark Cassandra Connector.
spark.cassandra.input.split.size_in_mb is not a valid Spark Cassandra Connector variable.
Possible matches:
spark.cassandra.input.split.size

我相信我做的事情很傻。我是Spark的新手,请帮忙。

1 个答案:

答案 0 :(得分:0)

pyspark-cassandra正在使用Spark Cassandra连接器1.2.x,在该版本中,该参数名为spark.cassandra.input.split.size。请参阅那里的错误消息,告诉您...split_size_in_mb无效,但您的意思可能是...split.size