我有一个具有这种结构的数据帧df:
Rank Review
5 good film
8 very goood film
..
然后我尝试使用quanteda包创建DocumentTermMatris:
temp.tf <- df$Review %>% tokens(ngrams = 1:1) %>% # generate tokens
+ dfm %>% # generate dfm
+ convert(to = "tm")
我得到了这个矩阵:
> inspect(temp.tf)
<<DocumentTermMatrix (documents: 63023, terms: 23892)>>
Non-/sparse entries: 520634/1505224882
Sparsity : 100%
Maximal term length: 77
Weighting : term frequency (tf)
Sample :
这个结构:
Terms
Docs good very film my excellent heart David plus always so
text14670 1 0 0 0 1 0 0 0 2 0
text19951 3 0 0 0 0 0 0 1 1 1
text24305 7 0 2 1 0 0 0 2 0 0
text26985 6 0 0 0 0 0 0 4 0 1
text29518 4 0 1 0 1 0 0 3 0 1
text34547 5 2 0 0 0 0 2 3 1 3
text3781 3 0 1 4 0 0 0 3 0 0
text5272 4 0 0 4 0 5 0 3 1 2
text5367 3 0 1 3 0 0 1 4 0 1
text6001 3 0 9 1 0 6 0 1 0 1
所以我认为这很好,但我认为:text6001,text5367,text5272 ......参考文件的名称...... 我的问题是这个矩阵中的行是有序的吗?或者矩阵推入矩阵?
谢谢
编辑:
我创建了一个文档术语频率:
mydfm <- dfm(df$Review, remove = stopwords("french"), stem = TRUE)
然后,我创建了一个tf-idf矩阵:
tfidf <- tfidf(mydfm)[, 5:10]
然后我想将tfidf矩阵合并到Rank列以得到类似的东西
features
Docs good very film my excellent heart David plus always so Rank
text14670 1 0 0 0 1 0 0 0 2 0 3
text19951 3 0 0 0 0 0 0 1 1 1 2
text24305 7 0 2 1 0 0 0 2 0 0 4
text26985 6 0 0 0 0 0 0 4 0 1 5
你能帮忙进行合并吗?
谢谢
答案 0 :(得分:1)
行(文档)按字母顺序排列,这就是text14670
出现在text19951
之前的原因。转换可能已重新排序文档,但您可以使用
sum(rownames(temp.tf) == sort(rownames(temp.tf))
如果不是0,那么它们不是按字母顺序排列的。
功能排序,至少在 quanteda dfm中,来自它们在文本中找到的顺序。您可以使用dfm_sort()
。
在您的代码中,tokens(ngrams = 1:1)
是不必要的,因为dfm()
执行此操作,ngrams = 1
是默认设置。
此外,您是否需要将其转换为 tm 对象?您可能需要的大部分内容都可以在 quanteda 中完成。