我有一个文本文档并清理了文本。现在我有一个我想要应用回归的单词列表,但我不知道该怎么做。有人可以帮忙吗? 我可以在单词列表中使用其他机器学习算法吗?
答案 0 :(得分:0)
请详细说明您在做什么样的预测?
一般情况下(使用scikit-learn):
步骤1:使用Snowball Stemmer来阻止词语
步骤2:使用此解析数据创建功能并标记训练和测试集。
步骤3:使用tfidfvectorizer将文本向量化转换为数字列表
步骤4:由于它将是一组庞大的功能,我们需要使用selectpercentile选择前10个(或任何你想要的)Percentile去除较少加权的特征。
现在,您可以将功能集用于任何您想要的目的!
希望这有帮助:)
PS:你需要对nltk和vectorizer进行一些研究,以获得适当的参数和调整
答案 1 :(得分:0)
Table description 非常感谢你的重播 我已经在excel文件中上传了一个示例 可以看出,有两列具有分类值,一列具有数值(0非常差,10非常好)
所以我想做的是根据人们给出最低/最高分数的单词/说法进行预测 分数将是标签 但我不知道是否有可能这样做?
我确实尝试仅使用文本评论(产品的改进)来提取期货/标签,只是为了看它是否合理,但是当我提取特征时,我不知道我应该预测什么在功能集上
最好的问候: - )