Question

如何使用Tidytext加载.txt文件的文件夹进行文本化？

我遇到过Silge＆amp;罗宾逊“使用R进行文本挖掘：一种整洁的方法”（https://www.tidytextmining.com/），这似乎对我的目的非常有希望。但我对R很新（试图为此目的学习它）所以我在一些非常基本的问题上遇到了磕磕绊。

虽然我可以关注并重现这些例子，但他们大多数都是从导入现有的图书馆开始的（例如janeaustenr或gutenbergr），而我所拥有的是30个txt文件的文件夹（每个文件包含瑞典外交部长向议会发送的年度声明））。

我已经设法通过使用其他一些教程和tm包来首先创建一个语料库，然后是一个DTM，然后我可以变成一个整洁的数据框，但我想必须有一个更简单的直接从txt文件的文件夹转到整洁的数据框。

Answer 1

如果您有一个包含.txt个文件的文件夹，您可以将其读入名为tbl的数据框，其中包含一个名为text的列，代码如下：

library(tidyverse)

tbl <- list.files(pattern = "*.txt") %>% 
        map_chr(~ read_file(.)) %>% 
        data_frame(text = .)

这使用来自基础R的函数来查找文件（list.files()）和来自purrr的函数来迭代所有文件。查看related question here。

之后，您可以继续进行其他分析任务。