基本上,我有三个包含我想要的所有数据的表,但是我不得不做一些对我不起作用的疯狂的JOIN和WHERE语句。我最后使用临时表,但我想知道是否有更长期的解决方案。
情况:我们通过SOAP将大量数据传输到我们的数据库,我们无法控制数据的组织方式,组合在一起,标记等等,我们需要尽可能地将其拆分以便它最终可能对我们有用。
我要问的是专业人士如何“准备”数据,以便最终可以通过其他表格快速地将其插入到有用的表格中,以及如何通过新数据流进行更新?什么是术语?我该怎么研究?
提前致谢!
答案 0 :(得分:1)
我使用的术语是用于准备数据并准备插入是#34; staging"数据。我们通常将行插入/更新到临时暂存表中。
我们按摩并调整临时表中的数据,分配外键,修复格式错误的数据,将大型多用途字段拆分为单个字段等,以便在行之前获取数据清理被插入到实际的目标表中。
(我不知道这是一个标准术语,其他人可能会以不同的方式提及它。)
<强>后续强>
为了提高复杂数据的查询性能,我们有时会存储预加入和预先计算的结果。基本上,我们使用&#34;查询准备好&#34;填充表格。结果,以便更简单地查询历史数据。这样做的一大缺点是我们现在拥有冗余数据,这些数据可能会变得“不同步”。与运营数据。我们使用预定(夜间)流程来重新填充这些表。
(我不确定这些类型的表的行业标准术语。)
在研究这方面,这些方法将在数据仓库&#34;数据仓库&#34;中的文章/白皮书中描述。和&#34;数据集市&#34;。这几乎总是被描述为&#34; ETL &#34;三个主要步骤:提取 - 转换 - 加载。业内媒体也有很多关于&#34;数据挖掘&#34;和&#34;大数据&#34;。