我试图生成一个dfm / tokens,仅包含我要分析的每个文本的唯一令牌,事实证明这非常困难。
例如两个文本 text1:“我一直在努力” text2:“它不会也不会工作”
我想得到以下内容
dfm[1] "I" "keep" "trying" "and"
dfm[2] "It" "won't" "and" "work"
到目前为止,我已经尝试同时使用“唯一”功能和“重复”功能。
c("I keep trying and trying","It won't and won't work")
c1<-corpus(c)
c2<-tokens(c1)
c2[[1]][!duplicated(c2[[1]])]
我对后者有一点运气,但是,只有当我分别调用每个文本并且无法将其聚合回dfm或令牌时,它才有效。
非常感谢您的帮助!