什么方法最适合从文本数据回归?

时间:2017-10-04 13:48:14

标签: python text scikit-learn nlp

我有一堆句子,每个句子都与数字性能值相关联。

我想做两件事:

  • 基于新句子预测表现
  • 找出哪些词与高分相关性最高

从句子中提取要素的最佳方法是什么?有人可以告诉我一个哪种型号最适合上述模型并且可以在Sklearn中找到吗?

谢谢! 查尔斯

ps:在线下方,文本输入将与其他数字特征组合以预测性能。

编辑:文字样本:

  

巴里是一位精彩的主持人!他的位置非常好,巴里非常好   亲切的帮助人。我会把他推荐给我所有的朋友   前往阿姆斯特丹短途或长途旅行!他的位置   公寓非常方便,乘坐电车很方便。只是   乘坐电车或步行几分钟或骑自行车,我们就是   家。感谢Barry这么美好的时光!祝你好运。祝你好运   并再次感谢!

1 个答案:

答案 0 :(得分:1)

文本的所有数据分析的基本前提是将句子转换为固定维空间中的向量,并使用您喜欢的方法进行回归。这可以通过以下几种方式完成:

Bag of words

这是"传统"这样做的方法。如果您也可以使用NLTK来完成这些话,这可能会更好。

深度学习

神经网络最近很好地解决了许多任务。文本分析就是其中之一。您可以查看https://github.com/ryankiros/skip-thoughts,或者找一个RNN将您的句子转换为矢量。然而,解释这些模型非常困难,因此难以找到与高分相关的单词。