我有一个CSV文件,其中有约100万个条目我想建模并导入到Django DB中。该模式类似于:id, name, address, num_employees
。
每隔几周CSV文件都会更新-条目会被添加和删除,但大多数保持不变。而且很少有架构会稍微改变。
我已经读过一些有关星型图,数据湖,摄取管道,数据适配器等内容,但是有很多变体和想法。有些似乎过分杀伤,有些似乎太幼稚。我在理解从哪里开始时遇到了麻烦。为此,我应该遵循什么最佳做法或模式?
顺便说一句,我感兴趣的一些事情:
address
被分成street_address, city, state, zip_code
。我怎样才能保持这种理智?