我正在使用以下方法来训练线性回归器,以预测推文的转发。我正在使用“文本”作为功能,并使用“ retweet_count”作为要预测的目标。但是,我的数据还具有其他一些功能,例如 hasMedia,hasHashtag,followers_count,情感(它们是数字功能)。如何将这些功能与转换为tfidf向量的“ 文本”结合使用?
我已经尝试串联熊猫数据帧。然后,当我提供新的测试数据时,功能不匹配。请在Attributes mismatch between training and testing data in sklearn - linear regression
中查看我的问题 id product date price
0 220 6647 2014-09-01 100 #group 1
1 220 6647 2014-09-03 120 #group 1 --> pick this
2 220 6647 2014-09-05 0 #group 1
3 826 3380 2014-11-11 150 #group 2 --> pick this
4 826 3380 2014-12-09 23 #group 3 --> pick this
5 826 3380 2015-05-12 88 #group 4 --> pick this
6 901 4555 2015-05-15 32 #group 4
7 901 4555 2015-10-05 542 #group 5 --> pick this
8 901 4555 2015-11-01 98 #group 6 --> pick this
数据样本