使用PySpark将Spark Dataframe加载到ElasticSearch中

时间:2018-06-25 14:34:08

标签: elasticsearch pyspark

不能像这里here那样简单地将spark数据帧加载到elasticsearch中(es在本地主机上运行)。  我想念什么?

conf = SparkConf().setAppName("product_recommendation-server") \
                          .set('spark.jars', 'path/to/elasticsearch-hadoop-2.1.0.Beta2.jar') \
                          .set('spark.driver.memory', '2250m') \
                          .set('spark.sql.shuffle.partitions', '2000')


sc = SparkContext(conf=conf)
spark = SparkSession(sc)
sql_sc = SQLContext(sc)

spark_df = spark.read.csv(path, header=True)

spark_df.write.save(format="org.elasticsearch.spark.sql")
  

Py4JJavaError:调用o77.save时发生错误。 :   java.lang.ClassNotFoundException:无法找到数据源:   org.elasticsearch.spark.sql。请在以下位置找到软件包   http://spark.apache.org/third-party-projects.html

0 个答案:

没有答案