使用talend进行GPDB循环

时间:2016-12-31 02:45:37

标签: jvm export-to-csv talend greenplum

我在GPDB中有一个非常大的数据集,我需要从中提取近350万条记录。我将它用于flatfile,然后用于加载到不同的表。我使用Talend,并使用tgreenpluminput组件从表中执行select *并将其提供给tfileoutputdelimited。但是由于文件的体积非常大,我在Talend服务器上执行时会耗尽内存。

我缺少超级用户的权限,无法执行\ copy将其输出到csv文件。我认为类似于do while或tloop的行数更有限可能对我有用。但我的表没有任何row_id或uid来区分行。

请帮我提一下如何解决这个问题。欣赏任何想法。谢谢!

1 个答案:

答案 0 :(得分:1)

如果您的要求是将数据从一个表加载到不同的表中,那么您无需转到load into file,然后转到from file to table

有一个名为tGreenplumRow的组件,它允许您在其中编写直接的SQL查询( DDL和DML查询)。

以下是一份示例作业,

enter image description here

如果您注意到,此组件中有three insert statements。它将以分号分隔执行。