我在向sklearn.linear_model.LogisticRegression添加自己的功能时遇到了一些问题。但无论如何,让我们看一些示例代码:
from sklearn.linear_model import LogisticRegression, LinearRegression
import numpy as np
#Numbers are class of tag
resultsNER = np.array([1,2,3,4,5])
#Acording to resultNER every row is another class so is another features
#but in this way every row have the same features
xNER = np.array([[1.,0.,0.,0.,-1.,1.],
[1.,0.,1.,0.,0.,1.],
[1.,1.,1.,1.,1.,1.],
[0.,0.,0.,0.,0.,0.],
[1.,1.,1.,0.,0.,0.]])
#Assing resultsNER to y
y = resultsNER
#Create LogReg
logit = LogisticRegression(C=1.0)
#Learn LogReg
logit.fit(xNER,y)
#Some test vector to check wich class will be predict
xPP = np.array([1.,1.,1.,0.,0.,1.])
#linear = LinearRegression()
#linear.fit(x, y)
print "expected: ", y
print "predicted:", logit.predict(xPP)
print "decision: ",logit.decision_function(xNER)
print logit.coef_
#print linear.predict(x)
print "params: ",logit.get_params(deep=True)
以上代码清晰易懂。所以我有一些我称之为1,2,3,4,5(resultsNER)的课程,他们与某些课程有关,例如"数据","人物","组织& #34;因此,对于每个类,我都会创建返回true或false的自定义功能,在这种情况下为1和0。示例:如果token等于"(S | s)unday",则它是数据类。数学上很清楚。我有测试它的每个类功能的令牌。然后我看看哪个类具有特征总和的最大值(这就是为什么返回数字不是布尔值)并将其拾取。换句话说,我使用argmax函数。当然,在摘要中,每个特征都具有α系数。在这种情况下,它是多类分类,因此我需要知道如何向sklearn.LogisticRegression添加多类功能。
我需要两个东西,alphas系数,并将自己的特征添加到Logistic回归中。对我来说最重要的是如何为每个类添加sklearn.LogisticRegression
我自己的功能函数。
我知道我可以通过梯度下降来计算系数。但我认为当我使用fit(x,y)时,LogisticRegression使用一些算法来计算我可以通过属性得到的系数
.coef_
。
所以最后我的主要问题是如何在我的示例类1,2,3,4,5(resultNER)中为不同的类添加自定义功能。
答案 0 :(得分:1)
对您的问题不太确定,但很少有可能对您有所帮助:
您可以使用predict_proba
函数来估算每个类的概率:
>>> logit.predict_proba(xPP)
array([[ 0.1756304 , 0.22633999, 0.25149571, 0.10134168, 0.24519222]])
如果你想要功能有一些权重(这是你称之为alpha的东西吗?),你不是在学习算法而是在preprocessing phase。我的情况你可以使用一系列系数:
>>> logit = LogisticRegression(C=1.0).fit(xNER,y)
>>> logit.predict(xPP)
array([3])
>>> alpha = np.array([[0.2, 0.2, 1, 1, 0.3, 1]])
>>> logit = LogisticRegression(C=1.0).fit(alpha*xNER,y)
>>> logit.predict(alpha*xPP)
array([2])