rvest抓取具有不同网址的多个html页面

时间:2019-03-02 12:58:48

标签: r web-scraping rvest

我正在尝试抓取网站上发布的新闻稿的文本。没有整体索引页,但是每20个新闻稿中就有一个单独的html页,其中包含指向包含其他新闻稿的其他html页的链接。我注意到每个新闻发布页面都具有以下格式:

http://www.website.com/pressreleases/view/title-of-press-release
http://www.website.com/pressreleases/view/another-title-here
http://www.website.com/pressreleases/view/some-different-title
http://www.website.com/pressreleases/view/yet-another-title

以此类推。

我发现,最好的方法可能是使用rvest下载http://www.website.com/pressreleases/view/之后的所有html页面,并从每个html页面中提取相关信息。但是,我看不到如何在不指定确切网址的情况下浏览所有不同的网页。

0 个答案:

没有答案