Question

我有几个csv文件，我的所有csv文件即将完全相同，但csv文件中的某些列彼此不同。举个例子：

csv 1,2,3有这些列：

id name post title cdate mdate path

但是在csv 4,5中有这些列：

id name post title ddate mdate fpath

我的输出应该是这样的：

id name post title cdate mdate ddate path fpath

如何实现这一目标？目前我正在接受这个：

enter image description here

但是在这个过程中，我可以从csv中提取数据，但不能在首选输出中提取数据。

Answer 1

您需要将每种文件类型放在不同的文件夹中，让我们说文件夹1,2,3在文件夹1中，4,5在文件夹2中。

现在，使用此作业将文件从一个文件夹插入Mongo DB：

tFileList --(iterate)--> tFileInputDelimited --(file_schema)--> tMap ---(DB_schema)--> tMongoDBOutput

在这里，我们使用tMap从文件架构中获取数据库架构，额外的列将保持空白。

最后，使用第二个作业，它是相同的第一个作业，但是tFileList指向第二个文件夹，tMap在已经写入的数据和基于id的新文件集之间有联接，文件架构也不同。 / p>

                                                            tMongoDBInput
                                                                 |
                                                                 |
tFileList --(iterate)--> tFileInputDelimited --(file_schema)--> tMap ---(DB_schema)--> tMongoDBOutput

您可以使用OnSubJobOK链接第一个和第二个作业。

talend open studio将不同的csv提取到mongodb

1 个答案: