文本处理(TM包)R

时间:2016-02-26 03:25:40

标签: r tm

我的任务的最终目标是为我的分析的写入字段提供一个词袋,并与相关的电子表格的其余部分合并。

我有一个带有三个变量A_id,B_text,D_integer的DF(df)。下面的脚本完成了所有的文本处理(据我所知),但是我忘了留在A_id变量中,所以我可以将单词包与电子表格的其余部分合并。我将如何修改下面的代码,以便在分析结束时我有一堆文字,以及每个观察的相关A_id。这样我就可以将这些词汇与下面描述的Dintdata合并。

library(tm)
library(SnowballC)

Btextdata<-df[,("B_text")]
Dintdata<- df[,c("A_id","D_integer")]
Btextdata2<-as.character(Btextdata$A_id)



#first write in field in nps data
Content0 <-  Corpus(VectorSource(Btextdata2))
npswhyidk<-tm_map(Content0, PlainTextDocument)
npswhyidk2<-tm_map(npswhyidk,removeNumbers)
# deleted rest of tm_map statements

#turning corpus into bag o words
npswhyuser <- TermDocumentMatrix(npswhyidk2)

0 个答案:

没有答案