如何使用R Tidytext加载文本挖掘文本?

时间:2018-03-02 19:37:14

标签: r loading text-mining tidytext

如何使用Tidytext加载.txt文件的文件夹进行文本化?

我遇到过Silge&罗宾逊“使用R进行文本挖掘:一种整洁的方法”(https://www.tidytextmining.com/),这似乎对我的目的非常有希望。但我对R很新(试图为此目的学习它)所以我在一些非常基本的问题上遇到了磕磕绊。

虽然我可以关注并重现这些例子,但他们大多数都是从导入现有的图书馆开始的(例如janeaustenr或gutenbergr),而我所拥有的是30个txt文件的文件夹(每个文件包含瑞典外交部长向议会发送的年度声明) )。

我已经设法通过使用其他一些教程和tm包来首先创建一个语料库,然后是一个DTM,然后我可以变成一个整洁的数据框,但我想必须有一个更简单的直接从txt文件的文件夹转到整洁的数据框。

1 个答案:

答案 0 :(得分:3)

如果您有一个包含.txt个文件的文件夹,您可以将其读入名为tbl的数据框,其中包含一个名为text的列,代码如下:

library(tidyverse)

tbl <- list.files(pattern = "*.txt") %>% 
        map_chr(~ read_file(.)) %>% 
        data_frame(text = .)

这使用来自基础R的函数来查找文件(list.files())和来自purrr的函数来迭代所有文件。查看related question here

之后,您可以继续进行其他分析任务。