应用错误收集

时间：2017-03-15 09:34:44

标签： python-3.x machine-learning regression

我有一个文本文档并清理了文本。现在我有一个我想要应用回归的单词列表，但我不知道该怎么做。有人可以帮忙吗？我可以在单词列表中使用其他机器学习算法吗？

答案 0 :(得分：0)

请详细说明您在做什么样的预测？

一般情况下（使用scikit-learn）：

步骤1：使用Snowball Stemmer来阻止词语

步骤2：使用此解析数据创建功能并标记训练和测试集。

步骤3：使用tfidfvectorizer将文本向量化转换为数字列表

步骤4：由于它将是一组庞大的功能，我们需要使用selectpercentile选择前10个（或任何你想要的）Percentile去除较少加权的特征。

现在，您可以将功能集用于任何您想要的目的！

希望这有帮助:)

PS：你需要对nltk和vectorizer进行一些研究，以获得适当的参数和调整

答案 1 :(得分：0)

Table description 非常感谢你的重播我已经在excel文件中上传了一个示例可以看出，有两列具有分类值，一列具有数值（0非常差，10非常好）

所以我想做的是根据人们给出最低/最高分数的单词/说法进行预测分数将是标签但我不知道是否有可能这样做？

我确实尝试仅使用文本评论（产品的改进）来提取期货/标签，只是为了看它是否合理，但是当我提取特征时，我不知道我应该预测什么在功能集上

最好的问候： - ）