从多个HTML文本文件创建语料库

时间:2018-11-20 10:20:42

标签: r text corpus

我有一个html文件列表,我从网络上获取了一些文本,并用read_html进行了阅读。

我的文件名如下:

a1 <- read_html(link of the text) 
a2 <- read_html(link of the text) 
.
.
. ## until:
a100 <- read_html(link of the text)

我正在尝试用它们创建一个语料库。

任何想法我该怎么做?

谢谢。

2 个答案:

答案 0 :(得分:0)

您可以预先分配向量:

text <- rep(NA, 100)
text[1] <- read_html(link1)
...
text[100] <- read_html(link100)

如果您将链接组织为矢量,那就更好了。然后,您可以按照注释中的建议使用lapply

text <- lapply(links, read_html)

(这里的链接是链接的向量)。

使用assign将是非常糟糕的编码风格:

# not a good idea
for (i in 1:100) assign(paste0("text", i), get(paste0("link", i)))

因为这很慢并且很难进一步处理。

答案 1 :(得分:0)

对于此解决方案,我建议使用purrr

library(tidyverse)
library(purrr)
library(rvest)

files <- list.files("path/to/html_links", full.names = T)

all_html <- tibble(file_path = files) %>% 
  mutate(filenames = basename(files)) %>% 
  mutate(text = map(file_path, read_html))

是跟踪哪个文本属于哪个文件的好方法。在文档级别,它还使诸如情感分析或任何其他类型的分析之类的事情变得容易。