我需要使用R做一些文本挖掘任务。我的文本文件分布在几个文件夹中,构成了它的类。
所以我需要创建一个“语料库”,它构成一个包含两列的数据文件:Class |文本。
重要的是要注意,文本无法编辑,只是按原样阅读。以下R代码执行某些操作,但不将文件夹名称归为文本类。
text.files <- list.files(path="/home/ricardo/MultiClass/data/", recursive=T, pattern="*.txt", full.names=T)
readDatFile <- function(f) {dat.fl <- read.table(f, header=FALSE)}
text.data <- sapply(text.files, readDatFile)
任何帮助?
由于 里卡多。