应用错误收集

请原谅一些天真的问题，但我是ML和分布式/无SQL数据库的新手。我已经安装了独立的Cassandra和pyspark并验证了这些安装（从jupyter notebook验证pyspark版本，创建了密钥空间/表等）。我的目标是能够使用pyspark（jupyter）连接到本地/独立的Cassandra键空间/表。

我知道在类似主题上也有一些话题，但是大多数话题似乎都在datastax-cassandra而非独立版本上，并且似乎没有关于如何在本地安装anguenot / pyspark-cassandra并使之连接器工作。

这是到目前为止（Windows 10计算机）：

在本地（C：\ spark \ spark-2.4.4-bin-hadoop2.7）中安装了独立的pyspark
在我的本地计算机（C：\ cassandra \ apache-cassandra-3.11.4）中安装了独立的Cassandra
下载了zip文件（https://github.com/anguenot/pyspark-cassandra/archive/v0.7.0.zip）（C：\ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip）
在命令提示符（spark bin目录）上，我正在尝试运行以下命令：

pyspark-py文件C：\ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip-软件包anguenot / pyspark-cassandra：0.7.0-conf spark.cassandra.connection.host = 172.0.0.1 < / p>

我收到以下错误消息：

回溯（最近通话最近）：在第9行的“ C：\ Users \\ anaconda3 \ Scripts \ jupyter-script.py”文件中 sys.exit（main（））主目录中的文件“ C：\ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py”，第230行命令= _jupyter_abspath（子命令） _jupyter_abspath中的第133行的文件“ C：\ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py” ‘找不到Jupyter命令{}。’。format（jupyter_subcommand）例外：未找到Jupyter命令jupyter-notebook。

假设此安装已完成，下一步是在pyspark中运行以下命令以连接到cassandra：

从pyspark导入SparkContext，SparkConf

从pyspark.sql导入SQLContext

load_options = {“ table”：“ TABLE_NAME”，“ keyspace”：“ KEYSPACE_NAME”}

df = spark.read.format（“ org.apache.spark.sql.cassandra”）。options（** load_options）.load（）

df.show（）

感谢您的所有投入。

如何使用pyspark连接到独立的Cassandra？

0 个答案: