我需要将我的独立Spark连接到python中的Cassandra实例。我从Apache website下载了Apache spark,提取并构建它:
public class DataModel {
private String todo;
private String note1;
public String getTodo() {
return todo;
}
public void setTodo(String todo) {
this.todo = todo;
}
public String getNote1() {
return note1;
}
public void setNote1(String note1) {
this.note1 = note1;
}
我添加了更新的./bashrc文件,我可以运行Spark。我也有Cassandra设置,我可以从我的python程序中提取数据。
如何将Spark连接到Cassandra实例以将Cassandra表作为Spark RDD进行访问?
答案 0 :(得分:0)
通过Spark Cassandra Connector可以使用DataFrame兼容接口 https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md
也可以使用基于包装连接器的RDD接口 https://github.com/TargetHolding/pyspark-cassandra
在这两种情况下,您最终都会通过
将软件包/ lib添加到您的应用程序中--packages or --jars
并指定您的Cassandra连接主机
--conf spark.cassandra.connection.host=yourhost
sqlContext.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="kv", keyspace="test")\
.load().show()
sc.cassandraTable("keyspace", "table")