使用R将.txt文件的文件夹合并为一个.csv文件

时间:2018-10-04 11:29:49

标签: dataframe type-conversion lapply topic-modeling text-analysis

我正在尝试完成结构化主题建模。因此,我试图将大量的txt文件(报纸上的文章)组合到一个csv文件中,然后继续进行结构化主题模型。以此目的。 我想创建一个.csv文件,其中包括row1中.txt文件的名称和row2中.txt文件的所有文本。 如果可行,那么我可以轻松地将文档变量添加到每个使用usig gsub和regrex的.txt文件中。

我尝试了从另一本指南中获得的这段代码,但是一个步骤似乎不起作用。 (如果有人完全知道另一种方式,请随时提出。)

此代码正在尝试合并4。 txt文件

*

       createcsv <- function(mydir, mycsvfilename){
             starting_dir <- getwd()
             myfiles <- list.files(mydir, full.names = FALSE, pattern = "*.txt")
             mytxts <- lapply(myfiles, readLines)
             mytxts1lines <- unlist(mytxts, recursive = FALSE)
             mytxtsdf <- data.frame(filename = basename(myfiles), 
                                 fulltext = mytxts1lines)
             write.table(mytxtsdf, file = paste0(mycsvfilename, ".csv"), sep = ",", row.names = FALSE, col.names = FALSE, quote = FALSE)

    message(paste0("Your CSV file is called ", paste0(mycsvfilename, ".csv"),  and can be found in ', getwd()))

这个错误

data.frame中的错误(文件名=基本名(myfiles),全文= mytxts1行): 参数暗示不同的行数:4、529

我假设该函数取消列出(创建mytxts1lines时,会将每个txt文件的每一行都识别为一个文件,因此,它们排成529行而不是4行(4个文本文件)

有人知道我该如何解决这个问题?

感谢alessio

0 个答案:

没有答案