有关语料库中的grepl和单词搜索的几个问题

时间:2019-02-19 19:17:10

标签: r tm

我正在处理一个大型语料库,我想使用RegEx表达式搜索一些术语以及一些固定术语(没有RegEx),但是遇到了一些问题。示例:

lorem <- c("Lorem ipsum dolor sit amet amistad consectetur adipiscing
elit nulla cometitividad a phasellus feugiat, dictumst litora varius
fusce turpis class justo parturient realidad ullamcorper blandit,
felis esparsidad diam opacidad ellentesque malesuada vulputate totalidad
conubia sollicitudin necesidad donec dictum hac. Nostra sociosqu justo
semper rutrum natoque mi iaculis nunc nibh maldad potenti, vitae quis
risus lacinia habitant igualdad sem eget ad diam parturient, bibendum
capacidad ornare nascetur natividad leifend in blandit interdum malesuada
phasellus. Orci vulputate quis enim laoreet curabitur celeridad
eleifend sociis sociosqu, posibilidad non risus morbi molestie paridad
maecenas comunidad sed habitant mollis urna, etiam aenean blandit
lacinia cras congue tempor")

将其转换为dtm:

corp <- Corpus(VectorSource(lorem))
dtm <- DocumentTermMatrix(corp)

RegEx搜索。我在文字中写了14个以“ ad”结尾的西班牙语术语:

inspect(dtm[,grepl("ad$", dtm$dimnames$Terms)])

输出:

<<DocumentTermMatrix (documents: 1, terms: 14)>>
Non-/sparse entries: 14/0
Sparsity           : 0%
Maximal term length: 13
Weighting          : term frequency (tf)
Sample             :
    Terms
Docs amistad capacidad celeridad cometitividad comunidad esparsidad igualdad maldad necesidad paridad
   1       1         1         1             1         1          1        1      1         1       1

这是问题所在:输出仅显示10个词而不是14个词。与列相同:我的语料库中有500个文档,但是输出是[1:10,1:10]矩阵,仅显示10行10列。

我的第二个问题是:没有RegEx命令,如何搜索某些术语的频率?只是在语料库中进行简单的搜索,其输出与grepl命令相同?

已编辑

0 个答案:

没有答案