如何创建具有字符n-gram特征的tf-idf矩阵?

时间:2018-03-19 09:24:29

标签: tf-idf text2vec

如何使用text2vec包创建具有字符n-gram特征的tdf-idf矩阵?

1 个答案:

答案 0 :(得分:0)

怎么样:

library(text2vec)
data("movie_review")
it = itoken(movie_review$review, tolower, char_tokenizer)
v = create_vocabulary(it, ngram = c(3, 3), sep_ngram = "_")
dtm = create_dtm(it, vectorizer = vocab_vectorizer(v))

PS将来请尝试提供一些可重复的示例,说明您尝试解决问题的方法。