应用错误收集

将非标准化数据集批量加载到PostgreSQL中的最有效方法是什么？

时间：2010-10-26 10:49:12

标签： postgresql csv dataset normalization bulk-load

我使用PostgreSQL的COPY加载了一个巨大的CSV数据集 - Eclipse的Filtered Usage Data，它占用了大量的空间，因为它没有规范化：三个TEXT列更有效地重构为单独的表，到使用外键列从主表中引用。

我的问题是：在加载所有数据之后重构数据库是否更快，或者创建具有所有约束的目标表，然后加载数据？前者涉及重复扫描一个巨大的表（接近10 ^ 9行），而后者将涉及每个CSV行进行多次查询（例如之前是否看过这种动作类型？如果不是，请将其添加到actions表中，获取其ID，在主表中使用正确的操作ID等创建一行。）。

现在每个重构步骤大约需要一天左右，初始加载也需要大约相同的时间。

1 个答案:

答案 0 :(得分：3)

根据我的经验，您希望将您关注的所有数据放入数据库中的临时表中并从那里开始，之后执行尽可能多的基于集合的逻辑，因为您很可能通过存储过程。加载到临时表时，表上没有任何索引。将数据加载到表中后创建索引。

点击此链接可获取一些提示http://www.postgresql.org/docs/9.0/interactive/populate.html

相关问题

将非标准化数据集批量加载到PostgreSQL中的最有效方法是什么？

将数据插入db的最有效方法是什么？准备好的语句，批量加载还是多个插入语句？

WPF最有效的图像加载方式

这是将JSON数据集加载到Pandas DataFrames中的最有效方法

以最有效的方式组合两个表

调用延迟加载的最有效方法

使用成对输入进行批量更新的最有效方法

通过已知IDS批量提取的最有效方法

删除重复项的最有效方法-Postgres

从HashMap高效批量插入/复制到表中

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？