我一直在尝试正确收集多个链接的内容。但是,我正在使用的标签(“ node-body”)不仅收集新闻内容,而且还收集每个链接的其他信息
("roba_pagina_top_seccion\",\"slot\":\"Roba Pagina Top Seccion\",\"adunit\":\"elespectador\\/noticias\",\"size\":\"320x250, 300x250\",\"block\":\"1\",\"settings\":{\"out_of_page\":0,\"slug\":\"\",\"short_tag\":0,\"adsense_ad_types\":\"\",\"adsense_channel_ids\":\"\",\"adsense_colors)
map_df(1100:1101, function(i) {
pagina <- read_html(sprintf(url_espectador, i, '%s', '%s', '%s', '%s'))
data.frame(link = paste0("https://www.elespectador.com", str_trim(html_attr(html_nodes(pagina, ".node-title a"), "href"))),
title = html_text(html_nodes(pagina, ".node-title h3")),
date = html_text(html_nodes(pagina, ".node-post-date")),
stringsAsFactors=FALSE)
}) -> links_espectador
#获取每个链接的内容。这是我的问题
content_espectador = lapply(links_espectador[ , 1], function(x) {read_html(x) %>% html_nodes(".node-body") %>% html_text %>% as.character})
我只想收集新闻报道而没有任何其他数据。
如何识别正确的标签或使用实际的标签,但让其余无用的信息感到高兴呢?
谢谢!