我正在进行Kaggle竞赛,预测电影收入。 我想为其使用神经网络并考虑输入。 电影中的演员是潜在影响收入的一种输入。 在训练数据集中,我发现总共有大约30000个不同的演员可能不在某个电影中(通常一部电影包含大约10-30个演员)。
但是我不知道如何将其输入到神经网络中。我最简单的想法就是再添加30000个输入,根据影片中播放的特定演员,输入0或1作为输入。
但是我觉得这不是最好的解决方案。
针对此特定问题是否还有其他更聪明的选择? 在google中,我通常会找到一种替代编码的方法,但在这里,多个值可能需要1。
谢谢