Question

让我们说一下，我有一个包含RSS Feed（例如路透社）的网页列表，我想将新闻Feed的文本保存到数据库中。我使用rvest转到新闻提要提供的链接，并获得包含以下内容的网页：

library(rvest)

df <- read_html("https://www.reuters.com/article/us-israel-wall/boulder-falls-from-jerusalems-western-wall-barely-missing-worshipper-idUSKBN1KD1NA?feedType=RSS&feedName=worldNews&utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Reuters%2FworldNews+%28Reuters+World+News%29")

是否可以在不知道页面结构的情况下获取上面链接中的新闻文本？例如：此页面https://www.afp.com/en/news/205/police-seek-motive-after-gunman-kills-two-toronto-doc-17v3325既有文字，又有其他内容，例如“与我们联系”，页眉和页脚。我只对文字感兴趣。

我想设置一个来源列表（路透社，Euronews，法国新闻社等），并将新闻文本输入数据库，但我确实知道网站的结构。有没有办法使用R做到这一点？

我用它来监视有关一段时间内缉获毒品的新闻，而不是复制新闻文本以从他人的工作中获利。

谢谢

在不知道网页R结构的情况下抓取网页

0 个答案: