网络抓取组

时间:2010-10-01 23:49:02

标签: php screen-scraping web-scraping

我想废弃groupon.com现在我的问题是这样的网站,当你第一次加载要求你加入他们的电子邮件服务,但当你重新加载页面时,他们直接显示页面的内容。我该怎么做?我正在使用php编写脚本。

如果有人可以在php中建议一个框架或库,这样可以很容易地进行抓取,那就太棒了。

感谢

4 个答案:

答案 0 :(得分:1)

我会调查cURL library抓取网站内容。我不确定您要抓取的确切信息,或者刷新是否会导致问题,但希望这会启动您的尝试。

答案 1 :(得分:0)

我们使用iMacros。 PRO:在浏览器中工作,适用于任何网站。 CON:没有CURL快。 - 当然,没有什么可以阻止你使用它们。

答案 2 :(得分:0)

你必须坚持使用PHP进行抓取吗? TestPlan使这种类型的测试变得容易。您可以再次访问该页面,也可以直接使用TestPlan注册其电子邮件列表,以获得对其网站的扩展访问权限。

这是一个粗略的例子,它将您带到主页面并关闭小弹出窗口:

GotoURL http://www.groupon.com/
Click id:step_one

SubmitForm with
    %Params:subscription[email_address]% somewhere@test.domain.xx
end

Click id:close

答案 3 :(得分:0)

如果有帮助,他们会有一个API http://www.groupon.com/pages/api