我对方法论有一般性质疑。我如何知道匹配合并(MERGE)或交错(SET)是否更适合组合数据集?如果我有两个相关的数据集,它们似乎包含许多相同的变量(但不是全部),但我不知道所述变量中的信息是否相同,哪个更好?
是否有某种一般规则来决定哪个更好?
感谢您的建议。
答案 0 :(得分:1)
这个问题确实没有一个好的答案; “合并”和“交错”之间存在根本区别。花几分钟时间阅读SAS Concepts手册中的示例particularly here。
答案 1 :(得分:0)
我认为这是一个非常具体的数据问题以及您要实现的目标。在您了解数据以了解是否可以将它们组合(设置)或想要匹配合并它们之前,您根本不应该合并数据集。没有一般规则,因为它只取决于您的数据 - 如果我有两个数据集
data have_1;
input x y;
datalines;
1 2
2 3
3 4
;;;;
run;
data have_2;
input x y z;
datalines;
1 2 3
2 3 4
3 4 5
;;;;
run;
您可以猜测has_1和has_2是相同的观察结果,只是附加一个变量z;但它们很容易也可以是不同的观察结果。如果我告诉你'x'是唯一的标识符,那么你会怀疑这些是相同的记录;但如果我告诉你“x”和“y”是定性特征,那么它们很容易就会发生质量上相似的不同观察。
重点在于:在使用之前了解您的数据。如果您不了解您的数据,则首先不应该使用它。