如何处理文本和数字功能的组合?

时间:2013-05-30 03:49:04

标签: python scikit-learn

看看Kaggel的Job Salary Prediction,我看到数字功能(如类别)和文本功能(如FullDescription)。

如何开展此类数据培训?我考虑使用TfidfTransformer对文本进行矢量化,但是它创建了稀疏矩阵,许多学习算法(例如RandomForestRegressor)拒绝使用它。此外,一旦我有文本的特征向量,我如何将其与其他功能结合?

有关如何处理此类数据的任何指示?

谢谢!

1 个答案:

答案 0 :(得分:5)

我首先要独立学习每个文本字段的tf-idf特征的线性模型,并将线性模型预测作为附加特征添加到其他特征中,并训练ExtraTreesRegressorGradientBoostedTreeRegressor综合功能。