我正在使用 Spark 1.3.0并希望使用 Pyspark 连接 Cassandra 。
>pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:1.3.0-M2
它显示成功下载依赖关系jar并进入Pyspark终端,但我无法进行导入。
>>> from pyspark_cassandra import CassandraSparkContext, Row <br/>
Tracstrong texteback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: No module named pyspark_cassandra
我也试过
sudo -u hdfs pyspark --packages TargetHolding:pyspark-cassandra:0.1.5
以及使用--jars option
的装配罐子。还是一样。使用scala,同样适用于spark-shell。我是python的新手。我错过了什么吗?