什么是最小化因变量的st偏差的适当方法(例如聚类?)

时间:2016-04-17 20:36:38

标签: sas cluster-analysis regression stata spss

我坚持最小化因变量的st偏差是以天为单位的时差。意思是好的,但偏差很可怕。通过自变量尝试聚类并注意到非常不同的聚类。现在,想知道: 1)我如何将这种知识从聚类应用到自变量?事实是它没有包含在初始聚类分析中,因为我知道它依赖于其他分析。 2)鉴于我知道时差的变量是依赖的,我是否应该使用簇数变量进行聚类,这是我初始聚类分析的结果?这会有帮助吗? 3)除了聚类之外还有其他任何技术可以帮助我以某种方式对观察组进行分类,这样对于每个组我都会有一个具有低st偏差的自变量的单独均值吗?

任何帮助都非常感谢!

P.S。我正在使用Stata和SPSS,但如果您可以共享代码,我也可以使用SAS。

1 个答案:

答案 0 :(得分:0)

听起来你的这一切都错了。以下是一些需要考虑的相关问题。

更重要的是,方差在各组之间保持一致,而不是低。

聚类(通常)基于聚类变量的类似模式来组织个体。

较少的观察结果通常不会减小标准偏差的大小。

每当你采用连续变量(IV或DV)并将它们转换为分类变量时,您将从等式中去除方差,并包括更多的测量误差。有时候有充分的理由这样做,往往没有。

分析应尽可能以理论为导向,因为数据驱动分析(就像您在此处尝试完成的那样)更有可能产生无法复制或推广到其他数据集,样本或群体的结果