如果我有登录凭据,如何抓取页面以获取数据?

时间:2012-03-22 22:45:12

标签: php web-crawler

我需要从不属于我的域的页面中抓取一些数据。我知道如何加载页面服务器端并用各种不同的语言(asp.net,PHP等)解析它,但是,我需要在登录后抓取页面。

例如,页面将有一个HTML标记,其属性设置为用户ID,如下所示:

<div id="profile" data-userid="1234"></div>

除非已登录,否则data-userid属性中不会包含ID。是否可以登录服务器端的站点? (我确实有登录凭据)

谢谢,

托马斯

2 个答案:

答案 0 :(得分:1)

特别了解curlCURLOPT_COOKIEFILE。您可以使用curl发布表单并维护会话cookie。

答案 1 :(得分:0)

是。您需要在爬网程序中使用支持会话的HTTP组件;您以编程方式登录,并为每个爬网提供从登录操作获得的cookie。测试套件通常具有这样的组件 - 例如参见SimpleTest