我试图计算由一到八个单词组成的短语的频率。我一直在阅读这里和其他地方的短语文本挖掘,并发现使用ngram标记化将是最好的方法。
但是,当我从.txt文件复制并粘贴文本时,它会为多行产生一个未识别的符号错误。是否可以在ngram_Tokenizer代码中使用readLines
函数代替X? E.g:
Bigram_Tokenizer<-function(X(readLines(file.choose())(Ngram_tokenizer(X(readLines(file.choose(),WekaControl(min=#,max=#)
?
当我复制readLines打印输出时,它出现意外[在[&#39;我是否需要在&#34; X&#34;中包含相同的文本?条目?
谢谢你, 本M.