似乎无法使用带有R的xlsx创建语料库进行文本挖掘

时间:2015-10-01 11:02:59

标签: r tm corpus

我是R编程的新手,看起来它应该很容易让我感到难过,这让我感觉很好。我的问题是我似乎无法让R构建一个合适的语料库,然后将其转换为基于xlsx电子表格的文档术语矩阵(dtm)或术语文档矩阵。我似乎在两个方面似乎存在的问题:

1)语料库不会读取id,text和category的列。 2)它没有在dtm中产生适当数量的文档。

我的数据结构是一个三列圆柱形电子表格,其中包含以下结构

ID条款类别 8675309 Jenny Wall Number是

ID是唯一标识符,Terms是描述较长条目的元数据术语,Category是分类变量,可以是是或否,具体取决于项目是否在组中。

我的代码如下

setwd("c:/users/jared/documents/business/kent project/r directory")
getwd()
#init
install.packages("qdap")
install.packages("xlsx","tm")
install.packages("~/R Scripts/RTextTools_1.4.2.tar.gz", repos = NULL, type =        source")
library(tm)
library(xlsx)
library(RTextTools)

file <- "c:/r directory/R Training.xlsx"


    adf<-anesthesia_df <- read.xlsx(file, 1, as.data.frame=TRUE,header =  TRUE,stringsAsFactors = FALSE)

    head(adf)

    #Build and Clean Corpus

    myReader <- readTabular(mapping=list(content="PROJECT_TERMS", id="APPLICATION_ID"))
    adc <- VCorpus(DataframeSource(adf), readerControl=list(reader=myReader))

    inspect(adc)

    head(adc)

    adc <- tm_map(adc, removePunctuation)  
    adc <- tm_map(adc, removeNumbers)  
    adc <- tm_map(adc, tolower) 
    adc <- tm_map(adc, removeWords, stopwords("english"))
    ads <- tm_map(adc, stripWhitespace)
    adc <- tm_map(adc, PlainTextDocument) 
   #docs <-tm_map(docs, stemDocument) 

   adtm<-DocumentTermMatrix(adc)

    inspect(adtm)
    #Create container for RTextTools
    containter<-create_container(adtm, APPLICATION_ID,trainSize = 1:200, testSize = 200:300, virgin=FALSE

我得到的错误是is.factor(x)中的错误:找不到对象'APPLICATION_ID'。

(我确实认识到我没有加入分类变量。)

有什么想法吗?感谢。

0 个答案:

没有答案