请原谅一些天真的问题,但我是ML和分布式/无SQL数据库的新手。我已经安装了独立的Cassandra和pyspark并验证了这些安装(从jupyter notebook验证pyspark版本,创建了密钥空间/表等)。我的目标是能够使用pyspark(jupyter)连接到本地/独立的Cassandra键空间/表。
我知道在类似主题上也有一些话题,但是大多数话题似乎都在datastax-cassandra而非独立版本上,并且似乎没有关于如何在本地安装anguenot / pyspark-cassandra并使之连接器工作。
这是到目前为止(Windows 10计算机):
在本地(C:\ spark \ spark-2.4.4-bin-hadoop2.7)中安装了独立的pyspark
在我的本地计算机(C:\ cassandra \ apache-cassandra-3.11.4)中安装了独立的Cassandra
下载了zip文件(https://github.com/anguenot/pyspark-cassandra/archive/v0.7.0.zip) (C:\ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip)
在命令提示符(spark bin目录)上,我正在尝试运行以下命令:
pyspark-py文件C:\ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip-软件包anguenot / pyspark-cassandra:0.7.0-conf spark.cassandra.connection.host = 172.0.0.1 < / p>
回溯(最近通话最近):
在第9行的“ C:\ Users \\ anaconda3 \ Scripts \ jupyter-script.py”文件中
sys.exit(main())
主目录中的文件“ C:\ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py”,第230行
命令= _jupyter_abspath(子命令)
_jupyter_abspath中的第133行的文件“ C:\ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py”
‘找不到Jupyter命令{}
。’。format(jupyter_subcommand)
例外:未找到Jupyter命令jupyter-notebook
。
从pyspark导入SparkContext,SparkConf
从pyspark.sql导入SQLContext
load_options = {“ table”:“ TABLE_NAME”,“ keyspace”:“ KEYSPACE_NAME”}
df = spark.read.format(“ org.apache.spark.sql.cassandra”)。options(** load_options).load()
df.show()
感谢您的所有投入。