我正在尝试使用 MATLAB 中的pearson相关系数来进行数据特征选择。我有一个21392x1974表,其中1974列为变量/特征,而21392行为观察值。我已经研究了关于corrcoeff()的Mathworks文档,但是大多数示例都是针对小型数据的。我很困惑如何将其应用于如此庞大的数据集。另外,我不确定Pearson相关系数是否可以应用于具有各种字符串类型标签(如Apple,Ball,Cat等,总共14种不同类别的标签)的数据的1974th列。我的目的是:-
- 计算数据的第7列与每列之间的Pearson相关系数。因此,第7列将与自身相关,从而生成完美的相关性(1)。我的目的是发现所有功能与数据的第七列之间的相关性。我还要在原始数据中显示Pearson相关系数> = 0.70的列索引。
其次,我想知道是否有可能在1974年第列(标签/类)与数据的每一列之间找到皮尔逊相关系数,作为我想确定的第二种情况。
我已经看过http://matlab.izmiran.ru/help/techdoc/ref/corrcoef.html和https://uk.mathworks.com/help/matlab/ref/corrcoef.html之类的各种资源,但是对于如何为我的数据做到这一点感到非常困惑。在这方面的任何帮助将不胜感激。干杯,谢谢!