我的每列都有一个单词:
word
-----
asdf
wer
asdf
有没有办法在所有行上获得最频繁的双卦和三卦? 例如,对于双字母:
aa: 10%
ab: 9%
.....
答案 0 :(得分:2)
我没有遇到过这种特殊问题的经验,但谷歌的一些小工作提出了tau
包“基于N-Gram的文本分类”。在示例中使用textcnt
函数看起来像这样:
x <- c('asdf','wer','asdf')
textcnt(x,3)
并且似乎返回了您正在寻找的那种信息。