在鸢尾花数据集示例之后,我尝试进行首次Logistic回归。我的X是句子中单词的数量,我希望(借助其他参数,但稍后会)找到句子必须具有特定术语(称为实体)的概率。
因此,根据我的统计数据,我有一些句子只有15个单词,而没有80个单词没有。仅使用此参数,似乎有点随机。这不是真正的规则。
我做错什么了吗?还是我们只能通过“不够好”参数来证明这些不好的结果? 所有这些,使我认为逻辑回归仅是统计信息(我认为这确实是事实,但我现在迷失了)
这就是为什么在我的Logistic回归中,我找到一个
log_reg.score(X,y) = 0.7666
(不是很明白这是什么意思)
并与此:
X_new = np.linspace(20, 80,150).reshape(150,1) #150 Sentences between 20 and 80 words
y_proba = log_reg.predict_proba(X_new)
decision_boundary = X_new[y_proba[:, 1] >= 0.5][0]
我的决策边界为[68.32214765],最大百分比为0.57 ...
我做错什么了吗?还是我们只能通过“不够好”参数来证明这些不好的结果?
所有这些,使我认为逻辑回归仅是统计信息(我认为确实如此,但现在我迷路了)
如何确定逻辑回归能正常工作?