使用数据阶段减少数据

时间:2015-03-06 11:32:57

标签: etl datastage

我被要求使用Data Stage ETL减少现有的数据模型。 它更像是一种练习,也是一种了解这个我不熟悉的程序的方法。

当然,应根据一些功能规则减少数据。

表:MEMBERSHIP(..,A,B,C)#其中A,B,C是不同的属性(我们的过滤器)

将数据从约700k行减少到7k行左右。

我在考虑保持与数据源中相同的百分比。 因此,如果我们有70%的A,20%的B和10%的C,我们在减少的版本上几乎拥有相同的百分比。

我正在寻找最好的方法和使用的内部工具(也许是聚合器阶段?)。 有没有办法用DataStage做类似PL的脚本? 我希望我已经足够清楚了。如果您有任何建议,我将非常感激。

感谢你们所有人。

〜Whitoo

2 个答案:

答案 0 :(得分:0)

Datastage不会按比例减少百分比

您可以做的是使用转换器阶段或过滤器阶段根据特定条件过滤掉来自源的数据。但就像我说的那样条件必须非常具体。 (例如 - 只选择那些A = [somevalue]或A not = [somevalue]的记录)

答案 1 :(得分:0)

DataStage PX具有示例阶段,允许您指定要对其进行采样的数据百分比:http://datastage4you.blogspot.com/2014/01/sample-stage-in-datastage.html