比较词云查询

时间:2015-06-18 09:39:20

标签: r word-cloud

我在R中的wordcloud包中使用了comparison.cloud函数。“好”一词出现在Cat1(27次)和Cat2(33次)类别中,但是在wordcloud上它出现在Cat1之下仅仅出于某些原因(可能是因为它是第一列。)

你能否建议如何调整以获得所有单词(即使它是多个类别中的相同单词)。这是我的数据集的一个重要发现,当它从Cat2中删除最重要的单词时,它无法比较云的目的。

数据看起来像这个矩阵:

       Cat1     Cat2     Cat3

好--- 27 -------- 33 --------- 3

坏--- 10 ----------- 6 --------- 4

...

代码是:

比较词云

tdm = read.table(“doc.csv”)

png(“comparision_wordcloud.png”,宽度= 1280,身高= 800)

comparison.cloud(tdm,colors = brewer.pal(nemo,“Dark2”),use.r.layout = FALSE,

             scale = c(4,.5), max.words = 1000, rot.per=.1, random.order = FALSE, title.size = 2)

如果有快速解决方法,请告诉我。

1 个答案:

答案 0 :(得分:0)

据我了解,比较云计算每个术语最有可能发生的类别(即术语“好”最有可能出现在类别1中)。因此,每个术语只会在比较云中出现一次。

我没有查看函数背后的代码,但我想它首先计算所有类别中“good”一词的平均出现次数,然后依次计算每个类别。通过计算每个类别中术语的平均值与总体平均值之间的差异,您可以确定该术语应出现在云中的哪个类别(即总体平均值和类别平均值之间的最大正差异)。

因此在你的例子中:尽管在cat 2中更常出现'good',但cat1中的总体术语可能更少,因此在cat1中实际上更重要。最重要的是,我认为比较云不会做你想要的。