我正在尝试创建一个非线性logistic回归,即使用scikit-learn进行多项式logistic回归。但是我找不到如何定义多项式的度数。有人尝试吗? 非常感谢!
答案 0 :(得分:3)
为此,您将需要分两步进行。让我们假设您正在使用虹膜数据集(因此您有一个可重现的示例):
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
data = load_iris()
X = data.data
y = data.target
X_train, X_test, y_train, y_test = train_test_split(X, y)
首先,您需要将数据转换为多项式特征。最初,我们的数据有4列:
X_train.shape
>>> (112,4)
您可以使用scikit Learn创建多项式特征(这里是2级):
poly = PolynomialFeatures(degree = 2, interaction_only=False, include_bias=False)
X_poly = poly.fit_transform(X_train)
X_poly.shape
>>> (112,14)
我们知道有14个要素(原始的4个,正方形和6个交叉的组合)
现在您可以基于此构建调用X_poly
的逻辑回归
lr = LogisticRegression()
lr.fit(X_poly,y_train)
注意:如果您随后要根据测试数据评估模型,则还需要按照以下两个步骤进行操作:
lr.score(poly.transform(X_test), y_test)
您可能希望使用在一个对象中处理以下两个步骤的管道,以避免构建中间对象:
pipe = Pipeline([('polynomial_features',poly), ('logistic_regression',lr)])
pipe.fit(X_train, y_train)
pipe.score(X_test, y_test)