我三卦中的第一个元素是什么?

时间:2015-07-18 10:15:54

标签: r tokenize text-mining tm

使用RWeka

中的trigram-tokenizer
> TriGramTokenizer <- function(x){NGramTokenizer(x, Weka_control(min=3, max=3))}

我将语料库标记出来。检查显示三卦看起来像这样:

> inspect(tdm_trigram[1:10, 1:3])
A term-document matrix (10 terms, 3 documents)

Non-/sparse entries: 10/20
Sparsity           : 67%
Maximal term length: 17 
Weighting          : term frequency (tf)

                           Docs
Terms                       en_US.blogs.capped.txt en_US.news.capped.txt
  \u0097 age believe                             0                     1
  \u0095 all tradeable                           0                     1
  \u0093 amazing feat\u0094                      0                     1
  \u0097 appear poised                           0                     1
  \u0096 areas muslim                            0                     1

\u0097是什么?我使用tm库中的常用方法(stripWhitespace,删除标点符号等)预处理语料库。

我是否应该使用不同的编码阅读?

1 个答案:

答案 0 :(得分:2)

这些是Unicode control characters您已解释为单词。

在旧版本的Unicode中

  • U + 0097是守卫区域的终点
  • U + 0095是MESSAGE WAITING
  • U + 0093是SET TRANSMIT STATE
  • U + 0096是禁区开始

您可能想在三卦之前将它们剥离