应用错误收集

使用talend进行GPDB循环

时间：2016-12-31 02:45:37

标签： jvm export-to-csv talend greenplum

我在GPDB中有一个非常大的数据集，我需要从中提取近350万条记录。我将它用于flatfile，然后用于加载到不同的表。我使用Talend，并使用tgreenpluminput组件从表中执行select *并将其提供给tfileoutputdelimited。但是由于文件的体积非常大，我在Talend服务器上执行时会耗尽内存。

我缺少超级用户的权限，无法执行\ copy将其输出到csv文件。我认为类似于do while或tloop的行数更有限可能对我有用。但我的表没有任何row_id或uid来区分行。

请帮我提一下如何解决这个问题。欣赏任何想法。谢谢！

1 个答案:

答案 0 :(得分：1)

如果您的要求是将数据从一个表加载到不同的表中，那么您无需转到load into file，然后转到from file to table。

有一个名为tGreenplumRow的组件，它允许您在其中编写直接的SQL查询（ DDL和DML查询）。

以下是一份示例作业，

如果您注意到，此组件中有three insert statements。它将以分号分隔执行。