我正在尝试将数据流化为Spark并将其加载到vertica中,我所引用的每篇文章都谈到了使用hdfs首先保存DF或RDD中的数据,是否有一种无需使用Hadoop和任何其他数据即可移动数据的方法存储
答案 0 :(得分:0)
Vertica Connector for Apache Spark不适用,不幸的是,连接器确实要求先将数据写入HDFS。
您可以使用df.write()
从Spark直接保存到JDBC连接表。
import org.apache.spark.sql.{SQLContext, SaveMode}
df.write
.mode(SaveMode.Append)
.format("jdbc")
.option("url", "jdbc:vertica://vertica:5433/database")
.option("dbtable", "schema.table")
.option("user", "dbadmin")
.option("password", "password")
.save()
这对于使用Spark 2.2.1版本的我来说是有效的。 Vertica 9.1版。