应用错误收集

Spark + HAWQ集成（HDP 2.4.2）

时间：2016-10-18 06:41:06

标签： postgresql apache-spark hortonworks-data-platform hawq

我正在使用HDP 2.4.2我想将Spark与HAWQ连接以进行数据摄取。

如果有任何建议/正确的方法，请告诉我，目前我正在使用postgress jdbc驱动程序将spark连接到HAWQ。我正面临像

这样的问题

如果表不存在，-DataFrame会在HAWQ中自动创建表。

- 记录摄取太慢。

- 持续显示"org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"等错误。

1 个答案:

答案 0 :(得分：1)

请参阅此示例Scala项目，用于通过Spark RDD读取HAWQ数据：https://github.com/kdunn926/sparkHawq

如果您希望通过HAWQ读取Spark生成的数据，您最好的选择是从Spark写入HDFS并使用PXF通过HAWQ读取它。请参阅此处的文档：http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html