在(稀疏)文档特征矩阵中分割ngrams

时间:2017-06-14 08:03:25

标签: r sparse-matrix quanteda

这是对this之一的跟进问题。在那里,我问是否有可能在文档特征矩阵(quanteda-package中的dfm-class)中以这样的方式分割ngram-features。双胞胎导致两个单独的unigrams。

为了更好地理解:我在dfm中得到了ngrams,将特征从德语翻译成英语。化合物(“Emissionsminderung”)在德语中很常见,但不是英语(“减排”)。

library(quanteda)

eg.txt <- c('increase in_the great plenary', 
            'great plenary emission_reduction', 
            'increase in_the emission_reduction emission_increase')
eg.corp <- corpus(eg.txt)
eg.dfm <- dfm(eg.corp)

这个例子有一个很好的answer,对于像上面那样的相对较小的矩阵来说它非常好。但是,一旦矩阵变大,我就会不断遇到以下内存错误。

> #turn the dfm into a matrix
> DF <- as.data.frame(eg.dfm)
Error in asMethod(object) : 
  Cholmod-error 'problem too large' at file ../Core/cholmod_dense.c, line 105

因此,是否有更多内存有效的方法来解决这个ngram问题或处理大(稀疏)矩阵/数据帧?提前谢谢!

1 个答案:

答案 0 :(得分:2)

这里的问题是,当您调用as.data.frame()时,您正在将稀疏(dfm)矩阵转换为密集对象。由于典型的文档特征矩阵是90%稀疏,这意味着您创建的内容比您可以处理的大。解决方案:使用dfm处理函数来保持稀疏性。

请注意,这是一个比linked question中提出的更好的解决方案,但也应该有效地处理更大的对象。

这是一个能够做到这一点的功能。它允许您设置连接符,并使用可变大小的ngrams。最重要的是,它使用dfm方法来确保dfm保持稀疏。

# function to split and duplicate counts in features containing 
# the concatenator character
dfm_splitgrams <- function(x, concatenator = "_") {
    # separate the unigrams
    x_unigrams <-  dfm_remove(x, concatenator, valuetype = "regex")

    # separate the ngrams
    x_ngrams <- dfm_select(x, concatenator, valuetype = "regex")
    # split into components
    split_ngrams <- stringi::stri_split_regex(featnames(x_ngrams), concatenator)
    # get a repeated index for the ngram feature names
    index_split_ngrams <- rep(featnames(x_ngrams), lengths(split_ngrams))
    # subset the ngram matrix using the (repeated) ngram feature names
    x_split_ngrams <- x_ngrams[, index_split_ngrams]
    # assign the ngram dfm the feature names of the split ngrams
    colnames(x_split_ngrams) <- unlist(split_ngrams, use.names = FALSE)

    # return the column concatenation of unigrams and split ngrams
    suppressWarnings(cbind(x_unigrams, x_split_ngrams))
}

所以:

dfm_splitgrams(eg.dfm)
## Document-feature matrix of: 3 documents, 9 features (40.7% sparse).
## 3 x 9 sparse Matrix of class "dfmSparse"
##        features
## docs    increase great plenary in the emission reduction emission increase
##   text1        1     1       1  1   1        0         0        0        0
##   text2        0     1       1  0   0        1         1        0        0
##   text3        1     0       0  1   1        1         1        1        1

在这里,分裂ngrams导致新的&#34; unigrams&#34;具有相同的功能名称。您可以(重新)将它们与dfm_compress()

有效地结合起来
dfm_compress(dfm_splitgrams(eg.dfm))
## Document-feature matrix of: 3 documents, 7 features (33.3% sparse).
## 3 x 7 sparse Matrix of class "dfmSparse"
##        features
## docs    increase great plenary in the emission reduction
##   text1        1     1       1  1   1        0         0
##   text2        0     1       1  0   0        1         1
##   text3        2     0       0  1   1        2         1