标签因素(ML的编码)

时间:2018-01-10 14:30:04

标签: r data-science

有一种标记分类变量的方法: 例如。

listings$require_guest_phone_verification <- factor(listings$require_guest_phone_verification,
                                               levels = c('f', 't'),
                                               labels = c(0, 1))

这是我编码的require_guest_phone_verification列作为示例。与此类似,有一个名称字段,其中有许多类型的名称,无法统计定义。这些必须是一些动态的方法。

我们需要遵循动态方式来处理水平和标签。它听起来很简单但总是有一些错误。我已将此用于以下级别:

 levels = c(paste(shQuote(levels(listings$name)), collapse=", "))

建议是否有人更好地处理关卡和标签。

在此处附加名称栏截图(仅显示结束条目):

1 个答案:

答案 0 :(得分:0)

名称列中有很多数据,由于数字编码,几乎不可能。我们可以通过虚拟变量来做到这一点。

 dummy.data.frame(listings, names=c("name"), sep=",")