我正在尝试抓取网站上发布的新闻稿的文本。没有整体索引页,但是每20个新闻稿中就有一个单独的html页,其中包含指向包含其他新闻稿的其他html页的链接。我注意到每个新闻发布页面都具有以下格式:
http://www.website.com/pressreleases/view/title-of-press-release
http://www.website.com/pressreleases/view/another-title-here
http://www.website.com/pressreleases/view/some-different-title
http://www.website.com/pressreleases/view/yet-another-title
以此类推。
我发现,最好的方法可能是使用rvest下载http://www.website.com/pressreleases/view/之后的所有html页面,并从每个html页面中提取相关信息。但是,我看不到如何在不指定确切网址的情况下浏览所有不同的网页。