虚拟/二进制类别数据框中的变量创建

时间:2016-12-07 04:36:57

标签: r dataframe dummy-variable

我最初尝试从Kaggle IMDB数据集中提取类型:

https://www.kaggle.com/param1/d/deepmatrix/imdb-5000-movie-dataset/the-money-makers

流派的原始数据的格式类似于Action_Adventure_Comedy等。由此我使用str_split将流派映射到单独的列。数据如下:

V1          V2          V3    
Action      Adventure   Comedy
Adventure   Comedy      Horror
Action      Adventure   Horror   

我想要创建的是一个单独列上每个类型的“虚拟变量”。这应该扫描V1到V4以查看它是否包含类型的值,如果是,则返回1,否则返回0。我想要的输出如下:

Action      Adventure   Comedy    Horror
1           1           1         0
0           1           1         1
1           1           0         1

请注意,因为我只想看一个单一类型,而不是多个(例如Action而不是Action_Adventure),我无法使用model.matrix。任何帮助将不胜感激。

斯图

0 个答案:

没有答案