R比较。云角位置

时间:2015-05-23 13:18:33

标签: r word-cloud

以下代码生成一个简单的比较云:

library(tm)
library(wordcloud)
text1<- "cat cat dog dog dog bird bird bird bird bike bike bike"
text2<- "cat cat dog dog dog dog fish fish fish fish car car"
tmpText <- data.frame(c(text1, text2))
row.names(tmpText)<- c("text1", "text2")
ds <- DataframeSource(tmpText)
corp <- Corpus(ds)
corp <- tm_map(corp, PlainTextDocument)
corp <- tm_map(corp, content_transformer(tolower))
corp<- tm_map(corp, removePunctuation)
tm <- TermDocumentMatrix(corp)
tm<- as.matrix(tm)
colnames(tm) <- c("text1", "text2")
comparison.cloud(tm, , scale=c(5, 1))

我有两个问题:

1-如果两个单词在多个文档中具有相同的频率,则包如何决定将其显示在一个子云VS中其他

2-根据文件:“每个字......它的角位置由最大值出现的文件确定。”我没有种子多次运行比较云,我无法理解解释,我在谷歌搜索解释,没有找到太多,“Angular Position”在这个背景下意味着什么?

非常感谢帮助

MJJ

1 个答案:

答案 0 :(得分:0)

以下是我对comparison.cloud如何列出结果的理解。从术语文档矩阵开始:

> tm
      Docs
Terms  text1 text2
  bike     3     0
  bird     4     0
  car      0     2
  cat      2     2
  dog      3     4
  fish     0     4

set.seed(19)
comparison.cloud(tm, scale=c(5, 1), random.order = FALSE, title.size = 1)

上面代码中的图,每次重新运行之前运行set.seed(19),都在下面。

enter image description here

对于字体大小,正如文档所解释的那样,&#34;每个单词的大小都映射到它的最大偏差&#34;。因此&#34;鸟&#34; text1中为4,text2中为0,因此这是最大的&#34;偏差&#34;两个文本之间和最大的字体; &#34;鱼&#34;也是4-0(但是text2有4个实例,所以它的颜色不同)和相同大小的字体,自行车是3-0,依此类推到&#34; cat&#34;没有偏差是最小的字体。

关于角度位置&#34;在一个术语中,文档以密码形式解释了&#34;它的角位置由最大值出现的文档决定。&#34;该图似乎将最大偏差项按字母顺序放在中心的平局之前,并通过一个不太明确的公式来列出其他项。

颜色由具有大多数实例的文本决定,因此&#34; dog&#34;是3 text1和4 text2,因此text2棕色。关系,例如&#34; cat&#34;似乎被分配到第一个包含该术语的文本,但我还没有测试过这种解释。