我最初尝试从Kaggle IMDB数据集中提取类型:
https://www.kaggle.com/param1/d/deepmatrix/imdb-5000-movie-dataset/the-money-makers
流派的原始数据的格式类似于Action_Adventure_Comedy等。由此我使用str_split将流派映射到单独的列。数据如下:
V1 V2 V3
Action Adventure Comedy
Adventure Comedy Horror
Action Adventure Horror
我想要创建的是一个单独列上每个类型的“虚拟变量”。这应该扫描V1到V4以查看它是否包含类型的值,如果是,则返回1,否则返回0。我想要的输出如下:
Action Adventure Comedy Horror
1 1 1 0
0 1 1 1
1 1 0 1
请注意,因为我只想看一个单一类型,而不是多个(例如Action而不是Action_Adventure),我无法使用model.matrix。任何帮助将不胜感激。
斯图