Question

有一种标记分类变量的方法：例如。

listings$require_guest_phone_verification <- factor(listings$require_guest_phone_verification,
                                               levels = c('f', 't'),
                                               labels = c(0, 1))

这是我编码的require_guest_phone_verification列作为示例。与此类似，有一个名称字段，其中有许多类型的名称，无法统计定义。这些必须是一些动态的方法。

我们需要遵循动态方式来处理水平和标签。它听起来很简单但总是有一些错误。我已将此用于以下级别：

 levels = c(paste(shQuote(levels(listings$name)), collapse=", "))

建议是否有人更好地处理关卡和标签。

在此处附加名称栏截图（仅显示结束条目）：

Answer 1

名称列中有很多数据，由于数字编码，几乎不可能。我们可以通过虚拟变量来做到这一点。

 dummy.data.frame(listings, names=c("name"), sep=",")

标签因素（ML的编码）

1 个答案: