将vectorSource添加到tm

时间:2017-02-02 01:10:08

标签: r csv tm

我是R的新手(跟我一起),但我需要将它用于学术工作。我正在使用RStudio版本1.0.136。我正在使用tm包来执行文本转换。在包中,有一些方法可以识别来源,例如:

> getSources()
[1] "DataframeSource" "DirSource"       "URISource"       "VectorSource"     "XMLSource"       "ZipSourc

我还在R中使用了名为Basic Text Mining的文本挖掘基础教程。在本教程中,它使用DirSource从文件夹中获取一组文本数据文件,例如(在我的例子中):

> cname <- file.path("C:", "texts")   
> cname
[1] "C:/texts"
> dir(cname)
 [1] "Feb24.csv"        "Feb25.csv"        "Feb26.csv"        "Feb27 Day OF.csv" "Feb28.csv"       
 [6] "Mar1.csv"         "Mar2.csv"         "Mar3.csv"         "Mar4.csv"         "Mar5.csv"        
[11] "Mar6.csv"        
> library(tm) 
> library(NLP)
> docs <- Corpus(DirSource(cname))   
> summary(docs)
                 Length Class             Mode
Feb24.csv        2      PlainTextDocument list
Feb25.csv        2      PlainTextDocument list
Feb26.csv        2      PlainTextDocument list
Feb27 Day OF.csv 2      PlainTextDocument list
Feb28.csv        2      PlainTextDocument list
Mar1.csv         2      PlainTextDocument list
Mar2.csv         2      PlainTextDocument list
Mar3.csv         2      PlainTextDocument list
Mar4.csv         2      PlainTextDocument list
Mar5.csv         2      PlainTextDocument list
Mar6.csv         2      PlainTextDocument list

这可行,但不是很好,因为csv文件中的所有数据都会被处理。我想只指定要处理的文本列。我可以完成它:

docs <- Corpus(VectorSource(feb24.csv$text))

但这意味着我已经为11个csv文件中的每一个一次做了一个浪费时间。如果此时你仍然和我在一起,我试图找出如何使VectorSource与dirSource一起工作。或者,如果有办法更好地自动化这个过程。我现在也需要将这11个文件分开,但它们都需要处理它们的文本列。希望我已经在这里描述了我想要做的事情。再次,这是非常新的。任何帮助都非常感激。

0 个答案:

没有答案