Question

我正在尝试完成结构化主题建模。因此，我试图将大量的txt文件（报纸上的文章）组合到一个csv文件中，然后继续进行结构化主题模型。以此目的。我想创建一个.csv文件，其中包括row1中.txt文件的名称和row2中.txt文件的所有文本。如果可行，那么我可以轻松地将文档变量添加到每个使用usig gsub和regrex的.txt文件中。

我尝试了从另一本指南中获得的这段代码，但是一个步骤似乎不起作用。（如果有人完全知道另一种方式，请随时提出。）

此代码正在尝试合并4。 txt文件

*

       createcsv <- function(mydir, mycsvfilename){
             starting_dir <- getwd()
             myfiles <- list.files(mydir, full.names = FALSE, pattern = "*.txt")
             mytxts <- lapply(myfiles, readLines)
             mytxts1lines <- unlist(mytxts, recursive = FALSE)
             mytxtsdf <- data.frame(filename = basename(myfiles), 
                                 fulltext = mytxts1lines)
             write.table(mytxtsdf, file = paste0(mycsvfilename, ".csv"), sep = ",", row.names = FALSE, col.names = FALSE, quote = FALSE)

    message(paste0("Your CSV file is called ", paste0(mycsvfilename, ".csv"),  and can be found in ', getwd()))

这个错误

data.frame中的错误（文件名=基本名（myfiles），全文= mytxts1行）：参数暗示不同的行数：4、529

我假设该函数取消列出（创建mytxts1lines时，会将每个txt文件的每一行都识别为一个文件，因此，它们排成529行而不是4行（4个文本文件）

有人知道我该如何解决这个问题？

感谢alessio

使用R将.txt文件的文件夹合并为一个.csv文件

0 个答案: