我正在尝试完成结构化主题建模。因此,我试图将大量的txt文件(报纸上的文章)组合到一个csv文件中,然后继续进行结构化主题模型。以此目的。 我想创建一个.csv文件,其中包括row1中.txt文件的名称和row2中.txt文件的所有文本。 如果可行,那么我可以轻松地将文档变量添加到每个使用usig gsub和regrex的.txt文件中。
我尝试了从另一本指南中获得的这段代码,但是一个步骤似乎不起作用。 (如果有人完全知道另一种方式,请随时提出。)
此代码正在尝试合并4。 txt文件
*
createcsv <- function(mydir, mycsvfilename){
starting_dir <- getwd()
myfiles <- list.files(mydir, full.names = FALSE, pattern = "*.txt")
mytxts <- lapply(myfiles, readLines)
mytxts1lines <- unlist(mytxts, recursive = FALSE)
mytxtsdf <- data.frame(filename = basename(myfiles),
fulltext = mytxts1lines)
write.table(mytxtsdf, file = paste0(mycsvfilename, ".csv"), sep = ",", row.names = FALSE, col.names = FALSE, quote = FALSE)
message(paste0("Your CSV file is called ", paste0(mycsvfilename, ".csv"), and can be found in ', getwd()))
这个错误
data.frame中的错误(文件名=基本名(myfiles),全文= mytxts1行): 参数暗示不同的行数:4、529
我假设该函数取消列出(创建mytxts1lines时,会将每个txt文件的每一行都识别为一个文件,因此,它们排成529行而不是4行(4个文本文件)
有人知道我该如何解决这个问题?
感谢alessio