我必须安装https://github.com/TargetHolding/pyspark-cassandra中提供的pyspark-cassandra-connector 但我遇到了巨大的问题和错误,并没有支持文件有关python的火花,称为pyspark !!! 我想知道pyspark-cassandra-connector包是否已被删除或其他什么?此外,我需要明确的git clone pyspark-cassandra-connector包的逐步教程,安装并将其导入pyspark shell并与cassandra成功连接,并通过pyspark进行事务,构建表或键空间并对其产生影响。
答案 0 :(得分:0)
我希望此链接可以帮助您完成任务
https://github.com/datastax/spark-cassandra-connector/#documentation
您的问题中的链接指向构建失败的存储库。 它还有一个指向上述存储库的链接。
答案 1 :(得分:0)
方法1 (spark-cassandra连接器)
使用以下命令通过使用spark-cassandra-connector启动pyspark shell
pyspark --packages com.datastax.spark:spark-cassandra-connector_2.11:2.4.2
现在您可以导入模块
从cassandra表“ emp”和键空间“ test”中读取数据为
spark.read.format("org.apache.spark.sql.cassandra").options(table="emp", keyspace="test").load().show()
方法2 (pyspark-cassandra)
使用以下命令通过使用pyspark-cassandra启动pyspark shell
pyspark --packages anguenot/pyspark-cassandra:2.4.0
从cassandra表“ emp”和键空间“ test”中读取数据为
spark.read.format("org.apache.spark.sql.cassandra").options(table="emp", keyspace="test").load().show()
答案 2 :(得分:-1)
您可以使用它连接到cassandra
import com.datastax.spark.connector._, org.apache.spark.SparkContext, org.apache.spark.SparkContext._, org.apache.spark.SparkConf
val conf = new SparkConf(true).set("spark.cassandra.connection.host", "localhost")
val sc = new SparkContext(conf)
你可以这样读
如果你有名为test的键空间和一个名为my_table的表
val test_spark_rdd = sc.cassandraTable("test", "my_table")
test_spark_rdd.first