由于我有一个大数据集且只有有限的计算资源,我想使用R包[{1}}和TraMineR
来使用discrepancy analysis的聚合序列对象。但是我很难找到正确的语法来做到这一点。
在下面的示例代码中,您会发现两个差异分析,差异分析的第一个树图使用原始数据集,第二个使用聚合数据(即只有按其频率加权的唯一序列)。 不幸的是,结果不符合。你知道为什么吗?
示例代码
WeightedCluster
有关
答案 0 :(得分:2)
您用于聚合数据的过程是错误的,因为在汇总数据时您不考虑解释性协变量。因为每个独特的序列都归因于几乎随机协变量曲线,给出了错误的结果。
您需要做的是汇总序列和协变量。协变量“Grammar”“funemp”“gcse5eq”位于第10至12列。所以
## Aggregate example data
mvad.agg <- wcAggregateCases(mvad[, c(10:12, 17:86)], weights=mvad$weight)
mvad.agg
然后我们来到下一个问题:排列测试。如果不执行任何操作,则只会聚合聚合(并省略聚合内的排列),从而为您提供错误的p值。可以使用两种解决方案:
在所有情况下,您可能会观察到p值的微小差异(因为您有不同的过程),并且还因为使用置换测试来估计p值。为了获得更精确的p值,尝试使用更高的R值(排列数)。在树过程中,可以使用pval
参数更改进行拆分的最小p值。您可以尝试将其设置得稍高一些,以查看差异是否来自此处。
我希望它有所帮助。