我有6个不同的输入数据集。我想在所有6个数据集上运行ETL,以便它们都转换为相同的输出表(相同的列和类型)。
我正在使用Pentaho(Spoon)来做这件事。
有没有办法可以定义Pentaho中所有这些转换使用的输出表模式?我使用MySQL作为输出数据库。
提前致谢。
答案 0 :(得分:1)
听起来您需要选择值步骤。将其中一个放在每个数据集路径的最后一跳上,并使路径的元数据看起来都是完全相同。然后,您可以将每个“选择值”步骤的输出连接到“表输出”。每个集合中的所有行将按特定顺序混合在一起。
这可能比看起来更具挑战性。如果任何字段与所有其他数据集中的相应字段完全相同,Spoon将抛出错误。您必须找到一些方法来使数据集中的所有元数据都相同。