我想建立一个数据管道,处理来自SFTP服务器的文件(不同格式)并将它们放入配置单元(由S3支持)。每种文件类型,例如CSV,TEXT等将有一个规范,用于解释文件中的字段。我们需要将每个字段映射到目标配置单元模式中的字段。以下几个很有特色。
这就是我的想法:
第1阶段将从SFTP读取文件并将其转储到S3中。这个阶段会定期运行,非常轻巧。它会有重试和东西。
第2阶段将从S3读取这些文件,并通过一系列验证,转换并将其转换为CSV文件来运行。无论原始格式是什么,基本上每个处理器的文件都会转换为CSV格式。这个新文件存储在不同的位置。
第3阶段获取此CSV文件并在其上创建一个配置单元表。
我可以用于我的用例的任何开源项目吗?你们推荐其他方法吗?
答案 0 :(得分:1)