在词袋上应用回归

时间:2017-03-15 09:34:44

标签: python-3.x machine-learning regression

我有一个文本文档并清理了文本。现在我有一个我想要应用回归的单词列表,但我不知道该怎么做。有人可以帮忙吗? 我可以在单词列表中使用其他机器学习算法吗?

2 个答案:

答案 0 :(得分:0)

请详细说明您在做什么样的预测?

一般情况下(使用scikit-learn):

步骤1:使用Snowball Stemmer来阻止词语

步骤2:使用此解析数据创建功能并标记训练和测试集。

步骤3:使用tfidfvectorizer将文本向量化转换为数字列表

步骤4:由于它将是一组庞大的功能,我们需要使用selectpercentile选择前10个(或任何你想要的)Percentile去除较少加权的特征。

现在,您可以将功能集用于任何您想要的目的!

希望这有帮助:)

PS:你需要对nltk和vectorizer进行一些研究,以获得适当的参数和调整

答案 1 :(得分:0)

Table description 非常感谢你的重播 我已经在excel文件中上传了一个示例 可以看出,有两列具有分类值,一列具有数值(0非常差,10非常好)

所以我想做的是根据人们给出最低/最高分数的单词/说法进行预测 分数将是标签 但我不知道是否有可能这样做?

我确实尝试仅使用文本评论(产品的改进)来提取期货/标签,只是为了看它是否合理,但是当我提取特征时,我不知道我应该预测什么在功能集上

最好的问候: - )