我刚认识了R&#39 tm
套餐。如果文件夹中有单独的.txt文件,我理解如何将它们转换为一种语料库文件
在R.但在我的具体情况下,我将所有文本数据放在一个文件中。该文件中的每个句子代表一个文档并具有前一个
短语ID和句子ID。
.tsv文件如下所示:
PhraseId SentenceId 156061 8545一种间歇性的,但大多是常规的努力。 156062 8545间歇性的但很常见的努力156063 8545 156064 8545间歇性地令人愉悦,但主要是常规工作......
如何将此类文件中的文本数据转换为tm
的语料库格式?
答案 0 :(得分:0)
尝试:
library(tm)
txt<-("PhraseId SentenceId 156061 8545 An intermittently pleasing but mostly routine effort . 156062 8545 An intermittently pleasing but mostly routine effort 156063 8545 An 156064 8545 intermittently pleasing but mostly routine effort ")
text.corpus<-Corpus(VectorSource(txt))