我的语料库中的文本文件必须采用何种格式才能使用tm包?

时间:2017-05-12 12:39:15

标签: r text-mining tm

我目前正在处理一个平面文本文件,它实际上只是一大堆文本副本并粘贴到记事本中。我在桌面上指定了一个文件夹作为我的语料库用作我的工作目录。

    #Map a directory to the corpus location on the desktop 
    cname<-file.path("~", "Desktop", "corpus" )

    #Begin text processing 
    docs<-Corpus(DirSource(cname))
    summary(docs)

在我可以进行任何类型的聚类之前,我收到摘要中的错误:

    Error in DirSource("cname/") : empty directory

此错误是否涉及文档的格式化方式?格式化平面文本文件以使用tm包的正确方法是什么?

0 个答案:

没有答案