我有一个数据框,其中包含在印度州使用的语言(英语,印地语,旁遮普语)作为分类变量。 但是当我看到类别数时,它显示:
具有4个级别的因子:“ 0”,英语,北印度语,旁遮普语
为什么我会得到“ 0”?
答案 0 :(得分:1)
如果没有有关您的数据或样本的更多信息,很难确切地了解正在发生的事情。 您是将数据初始化为因子还是被自动加载?
这是我要检查的内容:
1)此变量中是否有任何null
个数据点?也许它们被分配为“ 0”。
2)如果您的数据来自csv类型的文件,请尝试在不使用stringsAsFactors=FALSE
的情况下读取数据,然后再转换变量类型。
3)根据我的经验,有时R在任何非英语的语言中的表现都非常奇怪(R的编码有些弱)。也许其他语言的特殊字符可以抵消水平?
4)尝试查询与“ 0”匹配的因子。你得到什么?
答案 1 :(得分:0)
数据集样本会有所帮助,但通常要(详尽地)查看列中所有可能的类别,您必须先将其转换为字符:
unique( as.character(df$column) )