标签: web-scraping rss open-graph-protocol
我想创建小型网络聚合器,有些网站没有暴露RSS提要,但页面内部有Open Graph标签,我可以阅读单篇文章的所有必要属性,但想知道主要文章网址列表页面,像RSS feed一样,为每个文章去收集每个文章的数据。我想查询今天创建的所有页面的网址 - 例如你能提出建议吗?