pyspark Cassandra连接器

时间:2017-04-19 07:41:02

标签: python-2.7 cassandra pyspark connector

我必须安装https://github.com/TargetHolding/pyspark-cassandra中提供的pyspark-cassandra-connector 但我遇到了巨大的问题和错误,并没有支持文件有关python的火花,称为pyspark !!! 我想知道pyspark-cassandra-connector包是否已被删除或其他什么?此外,我需要明确的git clone pyspark-cassandra-connector包的逐步教程,安装并将其导入pyspark shell并与cassandra成功连接,并通过pyspark进行事务,构建表或键空间并对其产生影响。

3 个答案:

答案 0 :(得分:0)

我希望此链接可以帮助您完成任务

https://github.com/datastax/spark-cassandra-connector/#documentation

您的问题中的链接指向构建失败的存储库。 它还有一个指向上述存储库的链接。

答案 1 :(得分:0)

方法1 (spark-cassandra连接器)

  1. 使用以下命令通过使用spark-cassandra-connector启动pyspark shell

    pyspark --packages com.datastax.spark:spark-cassandra-connector_2.11:2.4.2
    
  2. 现在您可以导入模块

  3. 从cassandra表“ emp”和键空间“ test”中读取数据为

    spark.read.format("org.apache.spark.sql.cassandra").options(table="emp", keyspace="test").load().show()
    

方法2 (pyspark-cassandra)

  1. 使用以下命令通过使用pyspark-cassandra启动pyspark shell

    pyspark --packages anguenot/pyspark-cassandra:2.4.0
    
  2. 从cassandra表“ emp”和键空间“ test”中读取数据为

    spark.read.format("org.apache.spark.sql.cassandra").options(table="emp", keyspace="test").load().show()
    

答案 2 :(得分:-1)

您可以使用它连接到cassandra

import com.datastax.spark.connector._, org.apache.spark.SparkContext, org.apache.spark.SparkContext._, org.apache.spark.SparkConf
val conf = new SparkConf(true).set("spark.cassandra.connection.host", "localhost")
val sc = new SparkContext(conf)
你可以这样读 如果你有名为test的键空间和一个名为my_table的表

val test_spark_rdd = sc.cassandraTable("test", "my_table")
test_spark_rdd.first