talend open studio将不同的csv提取到mongodb

时间:2015-07-04 05:49:22

标签: mongodb talend

我有几个csv文件,我的所有csv文件即将完全相同,但csv文件中的某些列彼此不同。举个例子:

csv 1,2,3有这些列:

id name post title cdate mdate path 

但是在csv 4,5中有这些列:

id name post title ddate mdate fpath

我的输出应该是这样的:

id name post title cdate mdate ddate path fpath

如何实现这一目标?目前我正在接受这个:

enter image description here

但是在这个过程中,我可以从csv中提取数据,但不能在首选输出中提取数据。

1 个答案:

答案 0 :(得分:0)

您需要将每种文件类型放在不同的文件夹中,让我们说文件夹1,2,3在文件夹1中,4,5在文件夹2中。

现在,使用此作业将文件从一个文件夹插入Mongo DB:

tFileList --(iterate)--> tFileInputDelimited --(file_schema)--> tMap ---(DB_schema)--> tMongoDBOutput

在这里,我们使用tMap从文件架构中获取数据库架构,额外的列将保持空白。

最后,使用第二个作业,它是相同的第一个作业,但是tFileList指向第二个文件夹,tMap在已经写入的数据和基于id的新文件集之间有联接,文件架构也不同。 / p>

                                                            tMongoDBInput
                                                                 |
                                                                 |
tFileList --(iterate)--> tFileInputDelimited --(file_schema)--> tMap ---(DB_schema)--> tMongoDBOutput

您可以使用OnSubJobOK链接第一个和第二个作业。