应用错误收集

我试图计算由一到八个单词组成的短语的频率。我一直在阅读这里和其他地方的短语文本挖掘，并发现使用ngram标记化将是最好的方法。

但是，当我从.txt文件复制并粘贴文本时，它会为多行产生一个未识别的符号错误。是否可以在ngram_Tokenizer代码中使用readLines函数代替X？ E.g：

tomkauffman在 GitHubGist （1）给出的示例中的

Bigram_Tokenizer<-function(X(readLines(file.choose())(Ngram_tokenizer(X(readLines(file.choose(),WekaControl(min=#,max=#)？

当我复制readLines打印输出时，它出现意外[在[＆＃39;我是否需要在＆＃34; X＆＃34;中包含相同的文本？条目？

谢谢你，本M.