这假设无法直接访问api。由于我要求所有帖子,我不确定RSS会有多大帮助。
我认为这是一个简单的系统,可以循环每年和每月并下载每个html文件,但更改每年月份对的以下URL。这适用于wordpress和博客博客。
http://www.lostincheeseland.com/2011/05
但是,有没有办法使用blogger提供的以下搜索功能来返回所有博客?我玩过它,但文档似乎很少。
http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6
我还有其他方法吗?
答案 0 :(得分:4)
您要找的是sitemap。
首先,你正在写一个机器人,所以检查博客的robots.txt文件是个好方法。瞧,你经常会找到那里提到的站点地图。以下是Google blog:
的示例User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED
在这种情况下,您可以访问Sitemap网址以获取xml站点地图。
对于Wordpress,同样适用,但它并非标准内置,因此并非所有博客都会拥有它。看看this plugin这是在Wordpress中创建这些站点地图的最常用方法。例如,我的博客使用此功能,您可以在/sitemap.xml找到站点地图 (标准位置)
简而言之:
另外: be a good Internet citizen!如果您要编写机器人,请确保它遵循robots.txt文件(例如blogspot明确告诉您不使用/search
!)