使用postgres替换csv文件(pandas加载数据)

时间:2016-01-20 12:55:05

标签: postgresql pandas

我将文件保存为.csv已超过一年,并将这些文件连接到Tableau Desktop,以便为某些最终用户(使用Tableau Reader查看数据)进行可视化。

我认为我决定迁移到postgreSQL,我将使用pandas库to_sql来填充它。

  • 我每天收到9个不同的文件,我通过添加列,计算,替换信息等处理每个文件(我目前将它们合并为.csv.bz2格式的月度文件)。
  • 我使用pd.concat和pd.merge创建了两个大型csv文件 Tableau连接到的已处理文件。当添加新数据时,这些文件每天都被覆盖,这很耗时

是否可以继续使用pandas进行文件连接和连接并将输出数据导出到postgres?这将是我第一次使用真正的数据库,与学习SQL语法和创建视图或表格相比,我对pandas感觉更舒服。我只是想避免一遍又一遍地覆盖相同的csv文件(以及我遇到的其他一些csv问题)。

1 个答案:

答案 0 :(得分:2)

不要过于担心规范化。正常规范化的数据库通常比非规范化数据库更有效,更容易处理。另一方面,如果您将非规范化的csv数据转储到数据库中,那么如果进行适当的规范化,导入函数将会复杂得多。我想我会建议你当时迈出一步。启动时只需将处理过的csv文件加载到postgres中即可。我非常确定所有处理之后的处理将比使用csv文件更容易和更快(只需确保设置正确的索引)。当您开始习惯使用数据库时,您可以开始在那里进行更多处理。

请记住,数据库真正擅长的一件事就是挑选出你想要处理的数据子集。尽可能多地尝试避免在您打算处理其子集时从数据库中提取大量数据。