Question

我正在尝试将数据流化为Spark并将其加载到vertica中，我所引用的每篇文章都谈到了使用hdfs首先保存DF或RDD中的数据，是否有一种无需使用Hadoop和任何其他数据即可移动数据的方法存储

Answer 1

Vertica Connector for Apache Spark不适用，不幸的是，连接器确实要求先将数据写入HDFS。

您可以使用df.write()从Spark直接保存到JDBC连接表。

import org.apache.spark.sql.{SQLContext, SaveMode}

df.write
  .mode(SaveMode.Append)
  .format("jdbc")
  .option("url", "jdbc:vertica://vertica:5433/database")
  .option("dbtable", "schema.table")
  .option("user", "dbadmin")
  .option("password", "password")
  .save()

这对于使用Spark 2.2.1版本的我来说是有效的。 Vertica 9.1版。

我们是否可以使用Spark将数据移动到Vertica，而不必将hadoop作为登台环境？

1 个答案: