我目前正在尝试学习scikit-learn,为此目的,我有一个简单的线性回归,用于房屋的价格相对于平方米的大小。 我已经为一个位置完成了这个模型,一切正常,当我尝试使用另一个数据集时,数据散布得很好,但回归/预测完全关闭了!信心也很可怕,往往是消极的。
以下是截图:
代码如下:
style.use('ggplot')
dataset = pd.read_csv('/Path/Data.csv')
X = np.array(dataset[['size']])
y = np.array(dataset[['value']])
X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.2)
clf = LinearRegression()
clf.fit(X_train, y_train)
plt.scatter(X,y)
plt.plot(X, clf.predict(X))
plt.tight_layout()
plt.show()
confidence = clf.score(X_test, y_test)
print confidence
答案 0 :(得分:0)
平方误差对异常值过于敏感。因为完全关闭,我最终删除了它们