我有两个数据集如下:
http://www.filedropper.com/dataa_1 ## DataA
http://www.filedropper.com/datab ## DataB
在dataA中,我们有42行8列,DataB有42行和6列。我们想在R中使用这两个数据来做CCA和sPLS。但我的问题是,当我们查看DataB时,总是每十一行都有相同的值。这会影响结果还是导致CCA或sPLS出现差异?
答案 0 :(得分:1)
在查看B区后,看起来变量是离散的。
在PLS或CCA中使用这些变量不是(技术)问题,但它会带来统计“挑战”:可能需要使用bootstap或jackknife进一步进入统计解释结果
您还应该问自己,这种“离散”表示对您的数据是否准确。如果原始变量是分类的,则可能是错误的,在这种情况下,您应该使用dummy variables。