TF-IDF +多元回归预测问题

时间:2019-01-08 17:44:44

标签: python scikit-learn nlp regression prediction

我有一个类似于Craigslist的门户上售出的大约10,000行车辆的数据集。列包括价格,里程,编号。的先前拥有者,汽车的销售时间(以天为单位),最重要的是描述汽车的文字(例如“无事故,定期维修”)。

我想找出哪些关键字(如果包含)会导致汽车尽快售出。但是,我知道汽车的销售时间还取决于其他因素,尤其是价格和行驶里程。

在scikit-learn中运行TfidfVectorizer会导致非常差的预测精度。不知道我是否也应该尝试在回归模型中包括价格,里程等信息,因为这似乎很复杂。当前正在考虑对足够大的特定数据片段重复TF-IDF回归(也许丰田汽车的价格在1万至2万美元之间)。

最后的方法是绘制两个直方图,其中一个车辆列表包含一个特定的单词/短语,而另一个列表则包含那些没有的单词/短语。这里的局限性在于我选择绘制的单词将基于我的主观意见。

是否还有其他方法可以找出哪些关键字可能很重要?预先感谢。

1 个答案:

答案 0 :(得分:0)

正如您提到的,您只能使用文本主体,这表示文本对销售汽车的影响程度。

尽管该模型的预测准确性非常差,但您仍可以提前了解该功能的重要性,并了解推动销售的词汇。

通过将ngram_range参数设置为(1,2),在tfidf矢量化器中包含短语 这可能使您对哪些短语会影响汽车的销售情况有所提示。

如果还建议您将tfidf的norm参数设置为None,以检查是否有影响。默认情况下,它适用l2范数。

差异将基于您使用的分类模型而来。最后,请尝试更改模型。