了解ETL过程

时间:2013-10-31 13:49:50

标签: data-warehouse etl

ETL似乎是一项非常常见的任务。我基本上是在阅读设计师使用http://it.toolbox.com/blogs/infosphere/17-mistakes-that-etl-designers-make-with-very-large-data-19264

上的大量数据所犯的一些ETL错误

我需要为以下几点提供一些实用的见解

a)将插入,更新和删除合并到同一个数据流/同一个进程中。这是一个什么问题?

b)根据异构数据系统同时采购多个系统。

c)未在需要访问的源/查找上生成正确的索引。

d)相信'我需要一次性处理所有数据,因为这是最快的方式'

有任何帮助吗?

2 个答案:

答案 0 :(得分:3)

a)数据完整性问题

b)数据质量会提高,而较小的块也会失败。

c)将花费更多时间来完成<

d)错误的索引会导致更多时间。最好根据您正在执行的查询获得索引。   即声明的where子句中的内容

e)将数据分成较小的数据集并处理相同的数据集是一种有效的解决方案 你的BITS-PILANI(WILP)学生仪式。

答案 1 :(得分:1)

A)如果您发现任务需要很长时间才能完成(由于数据量增加),这是一个问题,然后在技术上将它们拆分出去太困难了。但是,将任务拆分可能会增加数据加载不一致的可能性(即DELETE有效,但插入失败,意味着您缺少大量数据)

B)我不明白'同时'在这里 - 你的意思是同时吗?如果您同时尝试从许多系统加载数据,则可以最大化带宽(网络,磁盘等)。如果您需要在离线时加载该数据,有时您无法选择。

C)是错误的索引会降低访问速度。但是,供应商通常不喜欢在源数据库中创建索引。

D)性能调优(最快的方法)是一个复杂的主题。在某些情况下,一次通过可能会更快。在其他情况下,它可能不会。