标签: versioning pipeline
我所读到的有关数据湖的所有信息都说您应该以原始格式存储数据,然后使用必要的提取存储转换管道来处理数据。
如果您的数据结构几乎每个月都在变化,该怎么办?您是否只是创建现有管道的副本并对其进行必要的更改并继续维护旧管道,以便仍可以在分析中进一步获得对齐的数据集?
纽约出租车数据就是一个很好的例子。最初几年后,数据集发生变化,添加了新列,并重命名了现有列。如果这是我的过程,那么我是否只维护管道“ pipeline v1”,然后创建“ pipeline v2”,仅在第四年之后才采集数据?