应用错误收集

如何处理文本和数字功能的组合？

时间：2013-05-30 03:49:04

标签： python scikit-learn

看看Kaggel的Job Salary Prediction，我看到数字功能（如类别）和文本功能（如FullDescription）。

如何开展此类数据培训？我考虑使用TfidfTransformer对文本进行矢量化，但是它创建了稀疏矩阵，许多学习算法（例如RandomForestRegressor）拒绝使用它。此外，一旦我有文本的特征向量，我如何将其与其他功能结合？

有关如何处理此类数据的任何指示？

谢谢！

1 个答案:

答案 0 :(得分：5)

我首先要独立学习每个文本字段的tf-idf特征的线性模型，并将线性模型预测作为附加特征添加到其他特征中，并训练ExtraTreesRegressor或GradientBoostedTreeRegressor综合功能。