我在R中的wordcloud包中使用了comparison.cloud函数。“好”一词出现在Cat1(27次)和Cat2(33次)类别中,但是在wordcloud上它出现在Cat1之下仅仅出于某些原因(可能是因为它是第一列。)
你能否建议如何调整以获得所有单词(即使它是多个类别中的相同单词)。这是我的数据集的一个重要发现,当它从Cat2中删除最重要的单词时,它无法比较云的目的。
数据看起来像这个矩阵:
Cat1 Cat2 Cat3
好--- 27 -------- 33 --------- 3
坏--- 10 ----------- 6 --------- 4
...
代码是:
tdm = read.table(“doc.csv”)
png(“comparision_wordcloud.png”,宽度= 1280,身高= 800)
comparison.cloud(tdm,colors = brewer.pal(nemo,“Dark2”),use.r.layout = FALSE,
scale = c(4,.5), max.words = 1000, rot.per=.1, random.order = FALSE, title.size = 2)
如果有快速解决方法,请告诉我。
答案 0 :(得分:0)
据我了解,比较云计算每个术语最有可能发生的类别(即术语“好”最有可能出现在类别1中)。因此,每个术语只会在比较云中出现一次。
我没有查看函数背后的代码,但我想它首先计算所有类别中“good”一词的平均出现次数,然后依次计算每个类别。通过计算每个类别中术语的平均值与总体平均值之间的差异,您可以确定该术语应出现在云中的哪个类别(即总体平均值和类别平均值之间的最大正差异)。
因此在你的例子中:尽管在cat 2中更常出现'good',但cat1中的总体术语可能更少,因此在cat1中实际上更重要。最重要的是,我认为比较云不会做你想要的。