从博客获取所有帖子(wordpress或博主)

时间:2012-09-05 18:00:01

标签: wordpress blogger blogspot

这假设无法直接访问api。由于我要求所有帖子,我不确定RSS会有多大帮助。

我认为这是一个简单的系统,可以循环每年和每月并下载每个html文件,但更改每年月份对的以下URL。这适用于wordpress和博客博客。

http://www.lostincheeseland.com/2011/05    

但是,有没有办法使用blogger提供的以下搜索功能来返回所有博客?我玩过它,但文档似乎很少。

http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6

我还有其他方法吗?

1 个答案:

答案 0 :(得分:4)

您要找的是sitemap

首先,你正在写一个机器人,所以检查博客的robots.txt文件是个好方法。瞧,你经常会找到那里提到的站点地图。以下是Google blog

的示例
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED

在这种情况下,您可以访问Sitemap网址以获取xml站点地图。

对于Wordpress,同样适用,但它并非标准内置,因此并非所有博客都会拥有它。看看this plugin这是在Wordpress中创建这些站点地图的最常用方法。例如,我的博客使用此功能,您可以在/sitemap.xml找到站点地图 (标准位置)

简而言之:

  • 检查robots.txt
  • 关注Sitemap网址(如果存在)
  • 否则,请检查/sitemap.xml

另外: be a good Internet citizen!如果您要编写机器人,请确保它遵循robots.txt文件(例如blogspot明确告诉您使用/search!)