Question

我的任务的最终目标是为我的分析的写入字段提供一个词袋，并与相关的电子表格的其余部分合并。

我有一个带有三个变量A_id，B_text，D_integer的DF（df）。下面的脚本完成了所有的文本处理（据我所知），但是我忘了留在A_id变量中，所以我可以将单词包与电子表格的其余部分合并。我将如何修改下面的代码，以便在分析结束时我有一堆文字，以及每个观察的相关A_id。这样我就可以将这些词汇与下面描述的Dintdata合并。

library(tm)
library(SnowballC)

Btextdata<-df[,("B_text")]
Dintdata<- df[,c("A_id","D_integer")]
Btextdata2<-as.character(Btextdata$A_id)



#first write in field in nps data
Content0 <-  Corpus(VectorSource(Btextdata2))
npswhyidk<-tm_map(Content0, PlainTextDocument)
npswhyidk2<-tm_map(npswhyidk,removeNumbers)
# deleted rest of tm_map statements

#turning corpus into bag o words
npswhyuser <- TermDocumentMatrix(npswhyidk2)

文本处理（TM包）R

0 个答案: