我的任务的最终目标是为我的分析的写入字段提供一个词袋,并与相关的电子表格的其余部分合并。
我有一个带有三个变量A_id,B_text,D_integer的DF(df)。下面的脚本完成了所有的文本处理(据我所知),但是我忘了留在A_id变量中,所以我可以将单词包与电子表格的其余部分合并。我将如何修改下面的代码,以便在分析结束时我有一堆文字,以及每个观察的相关A_id。这样我就可以将这些词汇与下面描述的Dintdata合并。
library(tm)
library(SnowballC)
Btextdata<-df[,("B_text")]
Dintdata<- df[,c("A_id","D_integer")]
Btextdata2<-as.character(Btextdata$A_id)
#first write in field in nps data
Content0 <- Corpus(VectorSource(Btextdata2))
npswhyidk<-tm_map(Content0, PlainTextDocument)
npswhyidk2<-tm_map(npswhyidk,removeNumbers)
# deleted rest of tm_map statements
#turning corpus into bag o words
npswhyuser <- TermDocumentMatrix(npswhyidk2)