Question

我一直在尝试使用sklearn对一些虚拟数据执行简单的多元线性回归。我最初通过sklearn.linear_model.LinearRegression.fit numpy数组，并不断收到此错误：

ValueError：matmul：输入操作数1的核心维0不匹配，带有gufunc签名（n？，k），（k，m？）->（n？，m？）（大小2与1）

我认为这是由于我的数组转置等错误所致，所以我拉起tutorial that used pandas dataframes并以相同的方式列出代码：

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

VWC = np.array((0,0.2,0.4,0.6,0.8,1))
Sensor_Voltage = np.array((515,330,275,250,245,240))

X = np.column_stack((VWC,VWC*VWC))
df = pd.DataFrame(X,columns=["VWC","VWC2"])
target = pd.DataFrame(Sensor_Voltage,columns=["Volt"])

model = LinearRegression()
model.fit(df,target["Volt"])
x = np.linspace(0,1,30)
y = model.predict(x[:,np.newaxis])
plt.plot(VWC, Sensor_Voltage)
plt.plot(x,y,dashes=(3,1))
plt.title("Simple Linear Regression")
plt.xlabel("Volumetric Water Content")
plt.ylabel("Sensor response (4.9mV)")
plt.show()

我仍然得到以下追溯：

Traceback (most recent call last):
  File "C:\Users\Vivian Imbriotis\AppData\Local\Programs\Python\Python37\simple_linear_regression.py", line 16, in <module>
    y = model.predict(x[:,np.newaxis])
  File "C:\Users\Vivian Imbriotis\AppData\Local\Programs\Python\Python37\lib\site-packages\sklearn\linear_model\_base.py", line 225, in predict
    return self._decision_function(X)
  File "C:\Users\Vivian Imbriotis\AppData\Local\Programs\Python\Python37\lib\site-packages\sklearn\linear_model\_base.py", line 209, in _decision_function
    dense_output=True) + self.intercept_
  File "C:\Users\Vivian Imbriotis\AppData\Local\Programs\Python\Python37\lib\site-packages\sklearn\utils\extmath.py", line 151, in safe_sparse_dot
    ret = a @ b
ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 1)

几个小时以来，我一直对此感到头疼，但我只是不明白自己在做什么错。

Scikit-learn，numpy和pandas均为最新版本；这是在python 3.7.3上

已解决：我很傻，并且误解了np.newaxis的工作方式。这里的目标是使数据适合二次方，所以我只需要更改：

x = np.linspace(0,1,30)
y = model.predict(x[:,np.newaxis])

到

x = np.columnstack([np.linspace(0,1,30),np.linspace(0,1,30)**2])
y = model.predict(x)

我敢肯定还有一种更优雅的书写方式，但是。

Answer 1

在使用sklearn和LinearRegression时，我也遇到了此错误，结果是我在第一个位置将Y变量传递给LinearRegression对象，在第二个位置将X变量传递给了我。但是实际上您先传递了X变量，然后传递了Y变量，这与在R中使用R的lm（）的顺序相反。

希望这可以帮助某天某人。

Answer 2

如果检查df的形状，则使用（6,2）数据集的形状训练模型。

df.shape = (6,2)。

当您尝试预测时，您将尝试使用不同形状的数据集。

x.shape=(30,1)

您需要的是使用正确的数据集形状。试试看

x = np.linspace((0,0),(1,1),30)
y = model.predict(x)

ValueError：尝试将sklearn的线性回归器拟合到熊猫数据框实例时使用matmul

2 个答案: