tm包错误:定义文档术语矩阵时出错

时间:2012-04-30 00:33:56

标签: r text-analysis tm reuters

我正在使用“tm”软件包分析路透社21578语料库,这是1987年所有路透社的新闻文章。将XML文件导入R数据文件后,我清理文本 - 转换为纯文本,转换为lwer大小写,删除停用词等(如下所示) - 然后我尝试将语料库转换为文档术语矩阵但收到错误消息:

UseMethod(“内容”,x)中的错误:   没有适用于“内容”的方法适用于“character”类的对象

所有预处理步骤都能正常工作,直到文档术语矩阵。

我创建了一个非随机的语料库子集(包含4000个文档),文档术语矩阵命令可以正常工作。

我的代码如下。谢谢你的帮助。

##Import
file <- "reut-full.xml" 
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))

## Convert to Plain Text Documents
reuters <- tm_map(reuters, as.PlainTextDocument)

## Convert to Lower Case
reuters <- tm_map(reuters, tolower)

## Remove Stopwords
reuters <- tm_map(reuters, removeWords, stopwords("english"))

## Remove Punctuations
reuters <- tm_map(reuters, removePunctuation)

## Stemming
reuters <- tm_map(reuters, stemDocument)

## Remove Numbers
reuters <- tm_map(reuters, removeNumbers)

## Eliminating Extra White Spaces
reuters <- tm_map(reuters, stripWhitespace)

## create a term document matrix
dtm <- DocumentTermMatrix(reuters)

Error in UseMethod("Content", x) : 
  no applicable method for 'Content' applied to an object of class "character"

0 个答案:

没有答案