我们有小的hadoop和Greenplum群 当前数据管道流程为:
External table >> hadoop-hawq external readbale table >>hawq internal table.
输出: 1.WE正在尝试使用GREENPLUM扩展数据管道。基本上要将HAWQ内部表或外部可读表数据直接推送到greenplum。 原因是因为我们想编辑我们的文件。另外,HAWQ不支持更新和删除。是否有任何替代方法来接近或推送数据。请指导。
2.如何使用gphdfs协议通过GPDB外部表访问HDFS数据
提前致谢!
答案 0 :(得分:2)
如果要将HAWQ内部表中的数据推送到Greenplum数据库,您可以:
1)使用可写外部表将HAWQ内部表中的数据卸载到HDFS上的文件中。以下是执行卸载的示例:http://gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-unloading-data-using-a-writable-external-table.html
2)然后使用带有gphdfs,gpfdist等协议的可读外部表将HDFS文件中的数据加载到Greenplum数据库。有关详细信息,请参阅http://gpdb.docs.pivotal.io/4320/admin_guide/load.html。
如果要将HAWQ中可读外部表中的数据推送到Greenplum数据库,可以像在HAWQ中一样直接在Greenplum数据库中使用可读的外部表。
对于gphdfs,这里有一些例子可以帮助: http://gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-example-1-greenplum-file-server-gpfdist.html