我一直在使用pyspark-cassandra 0.1.5和spark 1.4.1(最新版本)。
但正常计算1519784 cassandra的记录需要70秒。
从stackoverflow中的this问题开始,我开始了解" spark.cassandra.input.split.size_in_mb "在定义SparkConf时,将有助于缩短时间。
但是我得到以下错误,同时在我的python代码中包含相同的错误
py4j.protocol.Py4JJavaError: An error occurred while calling o93.cassandraTable.
: com.datastax.spark.connector.util.ConfigCheck$ConnectorConfigurationException: Invalid Config Variables
Only known spark.cassandra.* variables are allowed when using the Spark Cassandra Connector.
spark.cassandra.input.split.size_in_mb is not a valid Spark Cassandra Connector variable.
Possible matches:
spark.cassandra.input.split.size
我相信我做的事情很傻。我是Spark的新手,请帮忙。
答案 0 :(得分:0)
pyspark-cassandra正在使用Spark Cassandra连接器1.2.x,在该版本中,该参数名为spark.cassandra.input.split.size
。请参阅那里的错误消息,告诉您...split_size_in_mb
无效,但您的意思可能是...split.size
。