Spark + HAWQ集成(HDP 2.4.2)

时间:2016-10-18 06:41:06

标签: postgresql apache-spark hortonworks-data-platform hawq

我正在使用HDP 2.4.2我想将Spark与HAWQ连接以进行数据摄取。

如果有任何建议/正确的方法,请告诉我,目前我正在使用postgress jdbc驱动程序将spark连接到HAWQ。我正面临像

这样的问题

如果表不存在,-DataFrame会在HAWQ中自动创建表。

- 记录摄取太慢。

- 持续显示"org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"等错误。

1 个答案:

答案 0 :(得分:1)

请参阅此示例Scala项目,用于通过Spark RDD读取HAWQ数据:https://github.com/kdunn926/sparkHawq

如果您希望通过HAWQ读取Spark生成的数据,您最好的选择是从Spark写入HDFS并使用PXF通过HAWQ读取它。请参阅此处的文档:http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html