使用pyspark

时间:2015-07-07 15:32:05

标签: cassandra pyspark

我是初学者,学习使用spark和cassandra。 我正在尝试使用pyspark连接到cassandra。我正在运行cassandra 2.1和spark 1.3。

我已经克隆了这个回购https://github.com/TargetHolding/pyspark-cassandra,并按照说明将其与spark shell以及spark-submit一起使用。

这是我正在使用的命令./bin/spark-submit --packages pyspark-cassandra:1.3 --conf spark.cassandra.connection.host = 127.0.0.1:9042 cassandra_test.py

类似于pyspark替换spark-submit(最后没有脚本)

我收到此错误: 线程" main"中的例外情况java.lang.IllegalArgumentException:要求失败:提供的Maven坐标必须采用“groupId:artifactId:version'”形式。提供的坐标是:pyspark-cassandra:1.3

我试图查找此错误并查看相关问题,但无法使连接器正常工作。

任何帮助将不胜感激。 提前谢谢。

1 个答案:

答案 0 :(得分:1)

Haven没试过,但火花套餐页面在这里:http://spark-packages.org/package/TargetHolding/pyspark-cassandra

似乎暗示:

levelsof

注意TargetHolding:位。可能就是这样。