R从列生成双卦和三卦

时间:2011-06-17 18:18:48

标签: regex r

我的每列都有一个单词:

 word
 -----
 asdf
 wer
 asdf

有没有办法在所有行上获得最频繁的双卦和三卦? 例如,对于双字母:

aa: 10%
ab: 9%
.....

1 个答案:

答案 0 :(得分:2)

我没有遇到过这种特殊问题的经验,但谷歌的一些小工作提出了tau包“基于N-Gram的文本分类”。在示例中使用textcnt函数看起来像这样:

x <- c('asdf','wer','asdf')
textcnt(x,3)

并且似乎返回了您正在寻找的那种信息。