Python中的Spark cassandra连接器

时间:2016-04-12 00:58:14

标签: python apache-spark cassandra spark-cassandra-connector

我需要将我的独立Spark连接到python中的Cassandra实例。我从Apache website下载了Apache spark,提取并构建它:

public class DataModel {

private String todo;
private String note1;

public String getTodo() {
    return todo;
}

public void setTodo(String todo) {
    this.todo = todo;
}

public String getNote1() {
    return note1;
}

public void setNote1(String note1) {
    this.note1 = note1;
}    

我添加了更新的./bashrc文件,我可以运行Spark。我也有Cassandra设置,我可以从我的python程序中提取数据。

如何将Spark连接到Cassandra实例以将Cassandra表作为Spark RDD进行访问?

1 个答案:

答案 0 :(得分:0)

通过Spark Cassandra Connector可以使用DataFrame兼容接口 https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

也可以使用基于包装连接器的RDD接口 https://github.com/TargetHolding/pyspark-cassandra

在这两种情况下,您最终都会通过

将软件包/ lib添加到您的应用程序中
--packages or --jars

并指定您的Cassandra连接主机

--conf spark.cassandra.connection.host=yourhost

Dataframes(需要Spark Cassandra连接器)

 sqlContext.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="kv", keyspace="test")\
    .load().show()

RDDs(需要Pyspark-Cassandra)

sc.cassandraTable("keyspace", "table")