您如何使用sklearn模型进行新观测的预测?

时间:2020-02-07 18:17:25

标签: machine-learning logistic-regression spam-prevention supervised-learning countvectorizer

所以,这似乎是一个愚蠢的问题,但是我不知道如何实际使用我创建的基于文本的机器学习预测器。

我使用了多个YouTube视频来学习有监督的机器学习,以便根据文本做出预测。大多数视频使用经典的Ham或Spam预测器过滤掉垃圾电子邮件或文本消息,我沿视频进行了编码,似乎成功了。

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.2,
                                                    random_state=37)

cvec = CountVectorizer(stop_words='english')

X_train_cvec = cvec.fit_transform(X_train)
X_test_cvec = cvec.transform(X_test)
lr = LogisticRegression()
lr.fit(X_train_cvec, y_train)

print(f'Training Score for CountVectorizer: {lr.score(X_train_cvec, y_train)}')
print(f'Testing Score for CountVectorizer: {lr.score(X_test_cvec, y_test)}')

Training Score for CountVectorizer: 0.9961857751851021
Testing Score for CountVectorizer: 0.9865470852017937

但是在视频结束后,我意识到我不知道如何实际实施此操作。在这些视频中,没有一个确实向我展示了如何在我不知道答案是什么的情况下对数据进行测试,而对于我的一生,我无法弄清楚。

为弄清我的意思,我希望能够输入诸如“您怎么做”和“恭喜您刚刚被选为blah blah”之类的文字,并查看我创建的预测变量是否可以预测这些是火腿(0)或垃圾邮件(1)。

1 个答案:

答案 0 :(得分:0)

您要做的就是在应用训练过程中使用的所有转换的同时,将新数据传递到模型的predict函数。

在这种情况下:

lr.predict(cvec.transform(X_new))

其中X_new包含新的观察结果。