将lexisnexis输出导入R quanteda

时间:2015-12-08 21:04:16

标签: r tm quanteda

我会使用Benoit的R-package quanteda来分析从lexisnexis导出的文章。导出采用标准的html格式。我使用tm包+插件来读取lexisnexis输出。不幸的是,将tm-corpus转换为quanteda-corpus时会发生错误。那个功能坏了,还是我以前出错了什么?

library("tm")
library("tm.plugin.lexisnexis")
library("quanteda")

ln <- LexisNexisSource("lexisnexisOutput.html")
cr <- Corpus(ln)
crp <- corpus(cr)

Error in UseMethod("corpus") : 
  no applicable method for 'corpus' applied to an object of class "list"
In addition: Warning message:
In corpus(texts, docvars = metad, source = paste("Converted from tm VCorpus '",  :
  Arguments docvarssource not used.

1 个答案:

答案 0 :(得分:1)

当文本是char类型的向量时,这是corpus.VCorpus()的限制,而不仅仅是单个char类型。固定在quanteda 0.9.1-6。请参阅Issue #80 on GitHub