如何在talend中推送大文件数据?

时间:2015-05-14 11:58:05

标签: talend

我创建了一个表格,其中我有一个7.5 GB的文本输入文件,有6500万条记录,现在我想把这些数据推送到Amazon RedShift表格。

但在处理了560万条记录后,它已不再移动。

可能是什么问题?由于作业已运行3小时,因此tFileOutputDelimited是否有任何限制。

以下是我创建的用于将数据推送到Redshift表的作业。

tFileInputDelimited(的.text)--- --- TMAP> tFilOutputDelimited(CSV)

|

|

tS3Put(将输出文件复制到S3)------> tRedShiftRow(createTempTable) - > tRedShiftRow(复制到临时)

2 个答案:

答案 0 :(得分:0)

限制来自Tmap组件,它不是处理大量数据的好选择,对于您的情况,您必须启用选项"存储临时数据"克服Tmap的内存消耗限制。 它在Talend Help Center中有详细描述。

答案 1 :(得分:0)

看起来,tFilOutputDelimited(csv)正在创建问题。任何文件都无法在一定数量的数据之后处理。不确定。尝试找出一种方法来加载父输入文件的一部分并在redshift中提交它。重复此过程,直到完成父输入文件的处理。