我是R的新手(跟我一起),但我需要将它用于学术工作。我正在使用RStudio版本1.0.136。我正在使用tm包来执行文本转换。在包中,有一些方法可以识别来源,例如:
> getSources()
[1] "DataframeSource" "DirSource" "URISource" "VectorSource" "XMLSource" "ZipSourc
我还在R中使用了名为Basic Text Mining的文本挖掘基础教程。在本教程中,它使用DirSource从文件夹中获取一组文本数据文件,例如(在我的例子中):
> cname <- file.path("C:", "texts")
> cname
[1] "C:/texts"
> dir(cname)
[1] "Feb24.csv" "Feb25.csv" "Feb26.csv" "Feb27 Day OF.csv" "Feb28.csv"
[6] "Mar1.csv" "Mar2.csv" "Mar3.csv" "Mar4.csv" "Mar5.csv"
[11] "Mar6.csv"
> library(tm)
> library(NLP)
> docs <- Corpus(DirSource(cname))
> summary(docs)
Length Class Mode
Feb24.csv 2 PlainTextDocument list
Feb25.csv 2 PlainTextDocument list
Feb26.csv 2 PlainTextDocument list
Feb27 Day OF.csv 2 PlainTextDocument list
Feb28.csv 2 PlainTextDocument list
Mar1.csv 2 PlainTextDocument list
Mar2.csv 2 PlainTextDocument list
Mar3.csv 2 PlainTextDocument list
Mar4.csv 2 PlainTextDocument list
Mar5.csv 2 PlainTextDocument list
Mar6.csv 2 PlainTextDocument list
这可行,但不是很好,因为csv文件中的所有数据都会被处理。我想只指定要处理的文本列。我可以完成它:
docs <- Corpus(VectorSource(feb24.csv$text))
但这意味着我已经为11个csv文件中的每一个一次做了一个浪费时间。如果此时你仍然和我在一起,我试图找出如何使VectorSource与dirSource一起工作。或者,如果有办法更好地自动化这个过程。我现在也需要将这11个文件分开,但它们都需要处理它们的文本列。希望我已经在这里描述了我想要做的事情。再次,这是非常新的。任何帮助都非常感激。