R中显示的额外类别

时间:2018-09-15 12:15:34

标签: r

我有一个数据框,其中包含在印度州使用的语言(英语,印地语,旁遮普语)作为分类变量。 但是当我看到类别数时,它显示:

  

具有4个级别的因子:“ 0”,英语,北印度语,旁遮普语

为什么我会得到“ 0”?

2 个答案:

答案 0 :(得分:1)

如果没有有关您的数据或样本的更多信息,很难确切地了解正在发生的事情。 您是将数据初始化为因子还是被自动加载?

这是我要检查的内容:

1)此变量中是否有任何null个数据点?也许它们被分配为“ 0”。

2)如果您的数据来自csv类型的文件,请尝试在不使用stringsAsFactors=FALSE的情况下读取数据,然后再转换变量类型。

3)根据我的经验,有时R在任何非英语的语言中的表现都非常奇怪(R的编码有些弱)。也许其他语言的特殊字符可以抵消水平?

4)尝试查询与“ 0”匹配的因子。你得到什么?

答案 1 :(得分:0)

数据集样本会有所帮助,但通常要(详尽地)查看列中所有可能的类别,您必须先将其转换为字符:

unique( as.character(df$column) )