在不知道网页R结构的情况下抓取网页

时间:2018-07-23 17:42:44

标签: r

让我们说一下,我有一个包含RSS Feed(例如路透社)的网页列表,我想将新闻Feed的文本保存到数据库中。我使用rvest转到新闻提要提供的链接,并获得包含以下内容的网页:

library(rvest)

df <- read_html("https://www.reuters.com/article/us-israel-wall/boulder-falls-from-jerusalems-western-wall-barely-missing-worshipper-idUSKBN1KD1NA?feedType=RSS&feedName=worldNews&utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Reuters%2FworldNews+%28Reuters+World+News%29")

是否可以在不知道页面结构的情况下获取上面链接中的新闻文本?例如:此页面https://www.afp.com/en/news/205/police-seek-motive-after-gunman-kills-two-toronto-doc-17v3325既有文字,又有其他内容,例如“与我们联系”,页眉和页脚。我只对文字感兴趣。

我想设置一个来源列表(路透社,Euronews,法国新闻社等),并将新闻文本输入数据库,但我确实知道网站的结构。有没有办法使用R做到这一点?

我用它来监视有关一段时间内缉获毒品的新闻,而不是复制新闻文本以从他人的工作中获利。

谢谢

0 个答案:

没有答案