Question

在prune_vocabulary包裹中应用text2vec后，是否可以检查语料库中剩余的文档数量？

以下是获取数据集和修剪词汇

的示例

library(text2vec)
library(data.table)
library(tm)

#Load movie review dataset
data("movie_review")
setDT(movie_review)
setkey(movie_review, id)
set.seed(2016L)

#Tokenize
prep_fun = tolower
tok_fun = word_tokenizer
it_train = itoken(movie_review$review, 
              preprocessor = prep_fun, 
              tokenizer = tok_fun, 
              ids = movie_review$id, 
              progressbar = FALSE)


#Generate vocabulary
vocab = create_vocabulary(it_train
                      , stopwords = tm::stopwords())

#Prune vocabulary
#How do I ascertain how many documents got kicked out of my training set because of the pruning criteria?
pruned_vocab = prune_vocabulary(vocab, 
                            term_count_min = 10, 
                            doc_proportion_max = 0.5,
                            doc_proportion_min = 0.001)

# create document term matrix with new pruned vocabulary vectorizer
vectorizer = vocab_vectorizer(pruned_vocab)
dtm_train  = create_dtm(it_train, vectorizer)

是否有一种简单的方法可以了解term_count_min和doc_proportion_min参数在我的文本语料库中的积极程度。我正在尝试执行与stm包允许我们使用plotRemoved函数处理此操作类似的操作，该函数生成如下图：

Answer 1

vocab $vocab是data.table，其中包含大量有关您的语料库的统计信息。 prune_vocabulary个term_count_min，doc_proportion_min参数只会过滤此data.table。例如，以下是如何计算已删除令牌的数量：

total_tokens = sum(v$vocab$terms_counts)
total_tokens
# 1230342
# now lets prune
v2 = prune_vocabulary(v, term_count_min = 10)
total_tokens - sum(v2$vocab$terms_counts)
# 78037
# effectively this will remove 78037 tokens

另一方面，您可以使用不同的词汇表创建文档术语矩阵，并使用Matrix包中的函数检查不同的统计信息：colMeans(), colSums(), rowMeans(), rowSums()等。我确定您可以获得任何以上指标。

例如，这里是如何查找空文档：

doc_word_count = Matrix::rowSums(dtm)
indices_empty_docs = which(doc_word_count == 0)

在R text2vec中

1 个答案: