应用错误收集

如何在机器学习的训练集中组合文本和数字功能？

时间：2016-04-10 09:44:09

标签： machine-learning scikit-learn ipython svm feature-selection

我试图根据数字特征和文本特征来预测社交网络中帖子上的喜欢数量。现在我有数据框所需的功能，但我不知道如何处理帖子文本数据。我应该将其矢量化/做其他的以获得合适的列车矩阵吗？我将使用sklearn中的LinearSVC进行分析。

my dataframe looks this way

1 个答案:

答案 0 :(得分：0)

有许多不同的方法可以将文本功能转换为数字功能。

最常见的方法之一是Bag of Words方法。将文本转换为具有每个单词出现的数组的位置。

如果您使用的是scikit-learn，我建议您阅读Text Feature extraction User Guide。

另请参阅NLTK toolkit了解处理文本数据的更复杂方法。