单词(s)频率散点图或比较R中的单词云

时间:2018-04-04 20:55:00

标签: r scatter-plot word-cloud

我有各自级别的死因数据(从19世纪开始),并希望比较男性和女性之间的频率,使用散点图或比较单词云。 我已经设法通过使用以下命令(例如比较Word云)示例:

all=c(female,male)
corpus = Corpus(VectorSource(all))
tdm = TermDocumentMatrix(corpus)
tdm = as.matrix(tdm)
colnames(tdm) = c("female", "male")
comparison.cloud(tdm, max.words=200, random.order=FALSE,rot.per=.0, colors=c("indianred3","lightsteelblue3"), use.r.layout=FALSE,title.size=3)

在这个过程中的某个时刻,死亡的原因被分成单个单词(当我读入数据时它们被合并)。 我的问题:有没有办法制作文字云或散点图,我考虑到死亡的某些原因包含多个单词? 例如:“verval”+“van”+“krachten”并不意味着分开,但合并在一起“verval van krachten”是一个非常频繁的死因,具有正确的意义。

0 个答案:

没有答案