Question

我有一个数据框，其中包含在印度州使用的语言（英语，印地语，旁遮普语）作为分类变量。但是当我看到类别数时，它显示：

具有4个级别的因子：“ 0”，英语，北印度语，旁遮普语

为什么我会得到“ 0”？

Answer 1

如果没有有关您的数据或样本的更多信息，很难确切地了解正在发生的事情。您是将数据初始化为因子还是被自动加载？

这是我要检查的内容：

1）此变量中是否有任何null个数据点？也许它们被分配为“ 0”。

2）如果您的数据来自csv类型的文件，请尝试在不使用stringsAsFactors=FALSE的情况下读取数据，然后再转换变量类型。

3）根据我的经验，有时R在任何非英语的语言中的表现都非常奇怪（R的编码有些弱）。也许其他语言的特殊字符可以抵消水平？

4）尝试查询与“ 0”匹配的因子。你得到什么？

Answer 2

数据集样本会有所帮助，但通常要（详尽地）查看列中所有可能的类别，您必须先将其转换为字符：

unique( as.character(df$column) )