定期Django数据提取和建模的最佳做法

时间:2019-03-15 06:41:35

标签: django database-design

我有一个CSV文件,其中有约100万个条目我想建模并导入到Django DB中。该模式类似于:id, name, address, num_employees

每隔几周CSV文件都会更新-条目会被添加和删除,但大多数保持不变。而且很少有架构会稍微改变。

我已经读过一些有关星型图,数据湖,摄取管道,数据适配器等内容,但是有很多变体和想法。有些似乎过分杀伤,有些似乎太幼稚。我在理解从哪里开始时遇到了麻烦。为此,我应该遵循什么最佳做法或模式?

顺便说一句,我感兴趣的一些事情:

  • 查询最新数据。
  • 执行一些完整性检查并处理诸如“如果旧地址中存在旧地址,但在当前版本中不存在,则保留旧地址”之类的事情。
  • 能够审核历史记录并手动更正发现无效的条目。
  • 处理罕见的架构更改。也许明年address被分成street_address, city, state, zip_code。我怎样才能保持这种理智?
  • 在更新时无需占用服务器或阻塞数据库即可摄取大文件(10-100mb)。

0 个答案:

没有答案