处理仅在机器学习的训练集中出现的数据

时间:2015-12-23 21:23:41

标签: machine-learning feature-extraction

所以我有一个分类问题,我必须根据不同的特征将犯罪分类为类别(对于那些熟悉的人来说,对于Kaggle的SF犯罪竞赛)。在这个数据集中发生的一个有趣的方面是有2个额外的功能" Descript"" Resolution"都包含短文本,它们只出现在训练集中而不是在测试集中。它们都有很少的文本作为价值,例如"在公共场所的酒精影响""违反保留令的等等"等等。

我的问题是,即使它们只出现在训练集中,我怎样才能使用这些字段?目前我正在丢弃它们,但我想从中提取一些信息。

0 个答案:

没有答案