如何抓取wordpress博客?

时间:2011-02-27 13:43:36

标签: wordpress network-programming web-crawler

我写了一个c程序来抓取博客。它很有效,直到它满足这个博客:www.ipujia.com。我发送HTTP请求:

GET http://www.ipujia.com/ HTTP/1.0

访问网站并获得如下响应:

HTTP/1.1 301 Moved Permanently
Date: Sun, 27 Feb 2011 13:15:26 GMT
Server: Apache/2.2.16 (Unix) mod_ssl/2.2.16 OpenSSL/0.9.8e-fips-rhel5
mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 mod_perl/2.0.4 
Perl/v5.8.8
X-Powered-By: PHP/5.2.14
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0
Pragma: no-cache
Last-Modified: Sun, 27 Feb 2011 13:15:27 GMT
Location: http://http/www.ipujia.com/
Content-Length: 0
Connection: close
Content-Type: text/html; charset=UTF-8

这很奇怪,因为我无法获取位置后面的索引页面。有没有人有任何想法?

1 个答案:

答案 0 :(得分:0)

响应中的“位置”字段包含格式错误的URI。

位置:http://http/www.ipujia.com/(注意协议错误) 应该是

地点:http://www.ipujia.com/

除非你掌控服务器,否则你无法在这里做到。

要解决它,您是否可以解析“位置”响应并尝试从中提取有效的URI?