看看Kaggel的Job Salary Prediction,我看到数字功能(如类别)和文本功能(如FullDescription)。
如何开展此类数据培训?我考虑使用TfidfTransformer对文本进行矢量化,但是它创建了稀疏矩阵,许多学习算法(例如RandomForestRegressor)拒绝使用它。此外,一旦我有文本的特征向量,我如何将其与其他功能结合?
有关如何处理此类数据的任何指示?
谢谢!
答案 0 :(得分:5)
我首先要独立学习每个文本字段的tf-idf特征的线性模型,并将线性模型预测作为附加特征添加到其他特征中,并训练ExtraTreesRegressor
或GradientBoostedTreeRegressor
综合功能。