findAssocs()不起作用,如下所示。 "清醒"并且"做梦"在书中经常出现。
> docs <- tm_map(docs, stemDocument)
> dtm <- DocumentTermMatrix(docs)
> freq <- colSums(as.matrix(dtm))
> ord <- order(freq)
> freq[tail(ord)]
one experi will can lucid dream
287 312 363 452 1018 2413
> freq[head(ord)]
abbey abdomin abdu abraham absent abus
1 1 1 1 1 1
> findAssocs(dtm, "dream", corlimit=0.6)
$dream
numeric(0)
> findAssocs(dtm, "dream", corlimit=0.1)
$dream
numeric(0)
> findAssocs(dtm, "lucid", corlimit=0.1)
$lucid
numeric(0)
> findAssocs(dtm, "lucid", corlimit=0.6)
$lucid
numeric(0)
>
语料库是单个文档,是书籍的文本版本。此功能是否至少需要两个文件?如果是这样的话,如果我把这本书分成两半,我会得到关于这本书整体的相关性,或者关于两半如何相互比较?
答案 0 :(得分:1)
它计算文档数量,忽略重复出现。
拆分,例如分为句子或段落。