具有大类别集的分类输入的一站式编码的替代方法

时间:2019-04-02 22:02:44

标签: neural-network feature-engineering

我正在进行Kaggle竞赛,预测电影收入。 我想为其使用神经网络并考虑输入。 电影中的演员是潜在影响收入的一种输入。 在训练数据集中,我发现总共有大约30000个不同的演员可能不在某个电影中(通常一部电影包含大约10-30个演员)。

但是我不知道如何将其输入到神经网络中。我最简单的想法就是再添加30000个输入,根据影片中播放的特定演员,输入0或1作为输入。

但是我觉得这不是最好的解决方案。

针对此特定问题是否还有其他更聪明的选择? 在google中,我通常会找到一种替代编码的方法,但在这里,多个值可能需要1。

谢谢

0 个答案:

没有答案