从本地连接到客户端cassandra

时间:2017-04-13 17:46:41

标签: amazon-web-services apache-spark cassandra pyspark

我正在尝试从AWS ec2中安装的cassandra中获取数据。 当我通过pyspark运行以下命令时,我能够从AWS读取, 但是当我通过spark-submit提交相同的python文件时,我从本地获取rdd。你能告诉我我错过配置的地方吗。

from pyspark import SparkConf, SparkContext
from pyspark.sql.session import SparkSession

conf = SparkConf().setAppName("testCassandra").set("spark.cassandra.connection.host", "#ec2ip#").set("spark.cassandra.connection.port", "9042")

sc = SparkContext(conf = conf)
spark = SparkSession(sc)

rdd = spark.read.format("org.apache.spark.sql.cassandra").options(table="tweettable", keyspace="twitterstorage", ).load().rdd

1 个答案:

答案 0 :(得分:2)

我能够通过传递--conf spark.cassandra.connection.host = ip作为spark -submit的参数来解决这个问题。