我正在对来自 kaggle 的葡萄酒质量数据集进行 ML 项目。我使用以下内容制作了一个相关矩阵:
corr_features =[]
for i , r in df.corr().iterrows():
k=0
for j in range(len(r)):
if i!= r.index[k]:
if r.values[k] >=0.5: #only correlates values with r valus of 0.5 or greater
corr_features.append([i, r.index[k], r.values[k]])
k += 1
corr_features
Out[66]:
[['fixed acidity', 'citric acid', 0.6717034347641041],
['fixed acidity', 'density', 0.6680472921189711],
['citric acid', 'fixed acidity', 0.6717034347641041],
['free sulfur dioxide', 'total sulfur dioxide', 0.6671819962872733],
['total sulfur dioxide', 'free sulfur dioxide', 0.6671819962872733],
['density', 'fixed acidity', 0.6680472921189711]]
我的教授建议我为反向相关的特征创建一个矩阵,我很困惑。我尝试使用 np.linalg.inv 但我认为这行不通,因为第一个矩阵不是数组。
任何建议都被采纳。