抓取需要身份验证的网站

时间:2011-01-24 21:09:11

标签: web-crawler

我如何编写一个登录okcupid的简单脚本(在cURL / python / ruby​​ / bash / perl / java中)并记录我每天收到的邮件数量?

输出类似于:

1/21/2011    1 messages
1/22/2011    0 messages
1/23/2011    2 messages
1/24/2011    1 messages

主要问题是我之前从未编写过网络抓取工具。我不知道如何以编程方式登录到像okcupid这样的网站。如何在加载不同页面时保持身份验证?等。

一旦我获得原始HTML的访问权限,我就可以通过正则表达式和地图等等了。

1 个答案:

答案 0 :(得分:2)

这是一个使用cURL的解决方案,可以下载收件箱的第一页。正确的解决方案将迭代每页消息的最后一步。 <{1}}和$USERNAME需要填写您的信息。

$PASSWORD

此技术在video tutorial about cURL中解释。