我创建了一个表格,其中我有一个7.5 GB的文本输入文件,有6500万条记录,现在我想把这些数据推送到Amazon RedShift表格。
但在处理了560万条记录后,它已不再移动。
可能是什么问题?由于作业已运行3小时,因此tFileOutputDelimited是否有任何限制。
以下是我创建的用于将数据推送到Redshift表的作业。
tFileInputDelimited(的.text)--- --- TMAP> tFilOutputDelimited(CSV)
|
|
tS3Put(将输出文件复制到S3)------> tRedShiftRow(createTempTable) - > tRedShiftRow(复制到临时)
答案 0 :(得分:0)
限制来自Tmap组件,它不是处理大量数据的好选择,对于您的情况,您必须启用选项"存储临时数据"克服Tmap的内存消耗限制。 它在Talend Help Center中有详细描述。
答案 1 :(得分:0)
看起来,tFilOutputDelimited(csv)正在创建问题。任何文件都无法在一定数量的数据之后处理。不确定。尝试找出一种方法来加载父输入文件的一部分并在redshift中提交它。重复此过程,直到完成父输入文件的处理。