稀疏偏最小二乘回归

时间:2014-07-16 08:58:32

标签: r regression correlation

我有两个数据集如下:

     http://www.filedropper.com/dataa_1 ## DataA
     http://www.filedropper.com/datab   ## DataB

在dataA中,我们有42行8列,DataB有42行和6列。我们想在R中使用这两个数据来做CCA和sPLS。但我的问题是,当我们查看DataB时,总是每十一行都有相同的值。这会影响结果还是导致CCA或sPLS出现差异?

1 个答案:

答案 0 :(得分:1)

在查看B区后,看起来变量是离散的。

在PLS或CCA中使用这些变量不是(技术)问题,但它会带来统计“挑战”:可能需要使用bootstap或jackknife进一步进入统计解释结果

您还应该问自己,这种“离散”表示对您的数据是否准确。如果原始变量是分类的,则可能是错误的,在这种情况下,您应该使用dummy variables