我有几个csv文件,我的所有csv文件即将完全相同,但csv文件中的某些列彼此不同。举个例子:
csv 1,2,3有这些列:
id name post title cdate mdate path
但是在csv 4,5中有这些列:
id name post title ddate mdate fpath
我的输出应该是这样的:
id name post title cdate mdate ddate path fpath
如何实现这一目标?目前我正在接受这个:
但是在这个过程中,我可以从csv中提取数据,但不能在首选输出中提取数据。
答案 0 :(得分:0)
您需要将每种文件类型放在不同的文件夹中,让我们说文件夹1,2,3在文件夹1中,4,5在文件夹2中。
现在,使用此作业将文件从一个文件夹插入Mongo DB:
tFileList --(iterate)--> tFileInputDelimited --(file_schema)--> tMap ---(DB_schema)--> tMongoDBOutput
在这里,我们使用tMap从文件架构中获取数据库架构,额外的列将保持空白。
最后,使用第二个作业,它是相同的第一个作业,但是tFileList指向第二个文件夹,tMap在已经写入的数据和基于id的新文件集之间有联接,文件架构也不同。 / p>
tMongoDBInput
|
|
tFileList --(iterate)--> tFileInputDelimited --(file_schema)--> tMap ---(DB_schema)--> tMongoDBOutput
您可以使用OnSubJobOK链接第一个和第二个作业。