如何使用pyspark连接到独立的Cassandra?

时间:2019-11-04 18:47:55

标签: pyspark cassandra jupyter-notebook

请原谅一些天真的问题,但我是ML和分布式/无SQL数据库的新手。我已经安装了独立的Cassandra和pyspark并验证了这些安装(从jupyter notebook验证pyspark版本,创建了密钥空间/表等)。我的目标是能够使用pyspark(jupyter)连接到本地/独立的Cassandra键空间/表。

我知道在类似主题上也有一些话题,但是大多数话题似乎都在datastax-cassandra而非独立版本上,并且似乎没有关于如何在本地安装anguenot / pyspark-cassandra并使之连接器工作。

这是到目前为止(Windows 10计算机):

  1. 在本地(C:\ spark \ spark-2.4.4-bin-hadoop2.7)中安装了独立的pyspark

  2. 在我的本地计算机(C:\ cassandra \ apache-cassandra-3.11.4)中安装了独立的Cassandra

  3. 下载了zip文件(https://github.com/anguenot/pyspark-cassandra/archive/v0.7.0.zip) (C:\ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip)

  4. 在命令提示符(spark bin目录)上,我正在尝试运行以下命令:

pyspark-py文件C:\ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip-软件包anguenot / pyspark-cassandra:0.7.0-conf spark.cassandra.connection.host = 172.0.0.1 < / p>

  1. 我收到以下错误消息:

回溯(最近通话最近): 在第9行的“ C:\ Users \\ anaconda3 \ Scripts \ jupyter-script.py”文件中 sys.exit(main()) 主目录中的文件“ C:\ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py”,第230行 命令= _jupyter_abspath(子命令) _jupyter_abspath中的第133行的文件“ C:\ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py” ‘找不到Jupyter命令{}。’。format(jupyter_subcommand) 例外:未找到Jupyter命令jupyter-notebook

  1. 假设此安装已完成,下一步是在pyspark中运行以下命令以连接到cassandra:

从pyspark导入SparkContext,SparkConf

从pyspark.sql导入SQLContext

load_options = {“ table”:“ TABLE_NAME”,“ keyspace”:“ KEYSPACE_NAME”}

df = spark.read.format(“ org.apache.spark.sql.cassandra”)。options(** load_options).load()

df.show()

感谢您的所有投入。

0 个答案:

没有答案