如何删除Quanteda中的重复令牌/保留唯一令牌?

时间:2019-07-16 15:32:31

标签: r quanteda

我试图生成一个dfm / tokens,仅包含我要分析的每个文本的唯一令牌,事实证明这非常困难。

例如两个文本 text1:“我一直在努力” text2:“它不会也不会工作”

我想得到以下内容

dfm[1] "I" "keep" "trying" "and"
dfm[2] "It" "won't" "and" "work"

到目前为止,我已经尝试同时使用“唯一”功能和“重复”功能。

c("I keep trying and trying","It won't and won't work")
c1<-corpus(c)
c2<-tokens(c1)

c2[[1]][!duplicated(c2[[1]])]

我对后者有一点运气,但是,只有当我分别调用每个文本并且无法将其聚合回dfm或令牌时,它才有效。

非常感谢您的帮助!

0 个答案:

没有答案