如何在R中使用大数据对多个变量进行热编码?

时间:2017-04-24 01:59:17

标签: r categorical-data one-hot-encoding bigdata

我目前有一个包含260,000行和50列的数据框,其中3列是数字,其余是分类。我想对分类列进行热编码以执行PCA并使用回归来预测类。我怎样才能在R?

中完成以下示例
Example:
V1 V2 V3 V4 V5 .... VN-1 VN

to

V1_a V1_b V2_a V2_b V2_c V3_a V3_b and so on

3 个答案:

答案 0 :(得分:2)

您可以使用model.matrixsparse.model.matrix。像这样:

sparse.model.matrix(~. -1, data = your_data)

~.告诉R您的整个表格(.)是某个假设模型的右侧,而-1表示忽略截距。如果没有-1,您的第一列将是1的向量。

答案 1 :(得分:0)

并非真正意味着"热编码"。

以下是使用dplyr将catagorical变量iris $ Species分散到三个单独的列中的示例:

df <- iris %>% 
        mutate(id = rownames(.) %>%  # unique identified to prevent duplicate rows when spreading
        mutate(val=1) %>% # give the categorical variable a value of 1
       spread(Species, val) # spread out each level of iris$Species as columns

 df[76:80,]

   Sepal.Length Sepal.Width Petal.Length Petal.Width  id setosa versicolor virginica
76          5.8         2.7          4.1         1.0  68     NA          1        NA
77          5.8         2.7          5.1         1.9 102     NA         NA         1
78          5.8         2.7          5.1         1.9 143     NA         NA         1
79          5.8         2.8          5.1         2.4 115     NA         NA         1
80          5.8         4.0          1.2         0.2  15      1         NA        NA

答案 2 :(得分:0)

基本上是一个带有data.tablemltools的oneliner:

# data.table with 125 variables:
dt_1h <- one_hot(dt)

# MD5 for checking reproducibility:
> digest::digest(dt_1h, algo = "md5")
[1] "f1eb1c1e2d5d94b709101557c9ed8d0d"

数据

library(data.table)
library(mltools)
set.seed(1701)
df <- data.frame(matrix(sample(c(LETTERS[1:26]),
                               260000*3, replace = TRUE), ncol = 3),
                 matrix(rnorm(260000*47), ncol = 47))
dt <- as.data.table(df)