如何使用Tidytext加载.txt文件的文件夹进行文本化?
我遇到过Silge&罗宾逊“使用R进行文本挖掘:一种整洁的方法”(https://www.tidytextmining.com/),这似乎对我的目的非常有希望。但我对R很新(试图为此目的学习它)所以我在一些非常基本的问题上遇到了磕磕绊。
虽然我可以关注并重现这些例子,但他们大多数都是从导入现有的图书馆开始的(例如janeaustenr或gutenbergr),而我所拥有的是30个txt文件的文件夹(每个文件包含瑞典外交部长向议会发送的年度声明) )。
我已经设法通过使用其他一些教程和tm包来首先创建一个语料库,然后是一个DTM,然后我可以变成一个整洁的数据框,但我想必须有一个更简单的直接从txt文件的文件夹转到整洁的数据框。
答案 0 :(得分:3)
如果您有一个包含.txt
个文件的文件夹,您可以将其读入名为tbl
的数据框,其中包含一个名为text
的列,代码如下:
library(tidyverse)
tbl <- list.files(pattern = "*.txt") %>%
map_chr(~ read_file(.)) %>%
data_frame(text = .)
这使用来自基础R的函数来查找文件(list.files()
)和来自purrr的函数来迭代所有文件。查看related question here。
之后,您可以继续进行其他分析任务。