应用错误收集

我试图生成一个dfm / tokens，仅包含我要分析的每个文本的唯一令牌，事实证明这非常困难。

例如两个文本 text1：“我一直在努力” text2：“它不会也不会工作”

我想得到以下内容

dfm[1] "I" "keep" "trying" "and"
dfm[2] "It" "won't" "and" "work"

到目前为止，我已经尝试同时使用“唯一”功能和“重复”功能。

c("I keep trying and trying","It won't and won't work")
c1<-corpus(c)
c2<-tokens(c1)

c2[[1]][!duplicated(c2[[1]])]

我对后者有一点运气，但是，只有当我分别调用每个文本并且无法将其聚合回dfm或令牌时，它才有效。

非常感谢您的帮助！