我想在运行文本上计算一些分布相似性。
Quanteda包中有一个很好的函数叫fcm,它可以从文本中创建一个共生矩阵。例如:
txt <- c("The quick brown fox jumped over the lazy dog.",
"The dog jumped and ate the fox.")
toks <- tokens(char_tolower(txt), remove_punct = TRUE)
fcm(toks, context = "document")
fcm(toks, context = "window", window = 3)
(此示例来自Quanteda文档(最后更新时间为2018年4月15日):https://cran.r-project.org/web/packages/quanteda/quanteda.pdf)
我想将包Wordpace的函数(参见文档,最新更新于2016年8月:https://cran.r-project.org/web/packages/wordspace/wordspace.pdf)应用于使用Quanteda的fcm构建的共现矩阵。
特别是,我对Wordspace函数dsm_score
感兴趣(第24页)。见这个例子:
model <- DSM_TermTerm
model$M # raw co-occurrence matrix
model <- dsm.score(model, score="MI")
round(model$S, 3) # PPMI scores
我的问题是我无法将这些指令应用于使用Quanteda&#34; fcm&#34;的共现矩阵构建。
有没有人知道如何#桥接&#34;这两个包?通过as.dsm的转换目前不包含对象fcm。
提前感谢您的建议。
欢呼,码头