Question

我必须安装https://github.com/TargetHolding/pyspark-cassandra中提供的pyspark-cassandra-connector 但我遇到了巨大的问题和错误，并没有支持文件有关python的火花，称为pyspark !!! 我想知道pyspark-cassandra-connector包是否已被删除或其他什么？此外，我需要明确的git clone pyspark-cassandra-connector包的逐步教程，安装并将其导入pyspark shell并与cassandra成功连接，并通过pyspark进行事务，构建表或键空间并对其产生影响。

Answer 1

我希望此链接可以帮助您完成任务

https://github.com/datastax/spark-cassandra-connector/#documentation

您的问题中的链接指向构建失败的存储库。它还有一个指向上述存储库的链接。

Answer 2

方法1 （spark-cassandra连接器）

使用以下命令通过使用spark-cassandra-connector启动pyspark shell

pyspark --packages com.datastax.spark:spark-cassandra-connector_2.11:2.4.2

现在您可以导入模块

从cassandra表“ emp”和键空间“ test”中读取数据为

spark.read.format("org.apache.spark.sql.cassandra").options(table="emp", keyspace="test").load().show()

方法2 （pyspark-cassandra）

使用以下命令通过使用pyspark-cassandra启动pyspark shell
```
pyspark --packages anguenot/pyspark-cassandra:2.4.0
```

从cassandra表“ emp”和键空间“ test”中读取数据为

spark.read.format("org.apache.spark.sql.cassandra").options(table="emp", keyspace="test").load().show()

Answer 3

您可以使用它连接到cassandra

import com.datastax.spark.connector._, org.apache.spark.SparkContext, org.apache.spark.SparkContext._, org.apache.spark.SparkConf
val conf = new SparkConf(true).set("spark.cassandra.connection.host", "localhost")
val sc = new SparkContext(conf)

你可以这样读如果你有名为test的键空间和一个名为my_table的表

val test_spark_rdd = sc.cassandraTable("test", "my_table")
test_spark_rdd.first

pyspark Cassandra连接器

3 个答案: