使用RWeka
类
> TriGramTokenizer <- function(x){NGramTokenizer(x, Weka_control(min=3, max=3))}
我将语料库标记出来。检查显示三卦看起来像这样:
> inspect(tdm_trigram[1:10, 1:3])
A term-document matrix (10 terms, 3 documents)
Non-/sparse entries: 10/20
Sparsity : 67%
Maximal term length: 17
Weighting : term frequency (tf)
Docs
Terms en_US.blogs.capped.txt en_US.news.capped.txt
\u0097 age believe 0 1
\u0095 all tradeable 0 1
\u0093 amazing feat\u0094 0 1
\u0097 appear poised 0 1
\u0096 areas muslim 0 1
\u0097
是什么?我使用tm
库中的常用方法(stripWhitespace,删除标点符号等)预处理语料库。
我是否应该使用不同的编码阅读?
答案 0 :(得分:2)
这些是Unicode control characters您已解释为单词。
在旧版本的Unicode中
您可能想在三卦之前将它们剥离