如何将包含文本数据的文件转换为R tm的语料库格式

时间:2017-05-04 11:41:42

标签: r tm corpus

我刚认识了R&#39 tm套餐。如果文件夹中有单独的.txt文件,我理解如何将它们转换为一种语料库文件 在R.但在我的具体情况下,我将所有文本数据放在一个文件中。该文件中的每个句子代表一个文档并具有前一个 短语ID和句子ID。 .tsv文件如下所示:

  

PhraseId SentenceId 156061 8545一种间歇性的,但大多是常规的努力。 156062 8545间歇性的但很常见的努力156063 8545 156064 8545间歇性地令人愉悦,但主要是常规工作......

如何将此类文件中的文本数据转换为tm的语料库格式?

1 个答案:

答案 0 :(得分:0)

尝试:

library(tm)

txt<-("PhraseId SentenceId 156061 8545 An intermittently pleasing but mostly routine effort . 156062 8545 An intermittently pleasing but mostly routine effort 156063 8545 An 156064 8545 intermittently pleasing but mostly routine effort ")

text.corpus<-Corpus(VectorSource(txt))