我正在使用HDP 2.4.2我想将Spark与HAWQ连接以进行数据摄取。
如果有任何建议/正确的方法,请告诉我,目前我正在使用postgress jdbc驱动程序将spark连接到HAWQ。我正面临像
这样的问题如果表不存在,-DataFrame会在HAWQ中自动创建表。
- 记录摄取太慢。
- 持续显示"org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"
等错误。
答案 0 :(得分:1)
请参阅此示例Scala项目,用于通过Spark RDD读取HAWQ数据:https://github.com/kdunn926/sparkHawq
如果您希望通过HAWQ读取Spark生成的数据,您最好的选择是从Spark写入HDFS并使用PXF通过HAWQ读取它。请参阅此处的文档:http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html