我想废弃groupon.com现在我的问题是这样的网站,当你第一次加载要求你加入他们的电子邮件服务,但当你重新加载页面时,他们直接显示页面的内容。我该怎么做?我正在使用php编写脚本。
如果有人可以在php中建议一个框架或库,这样可以很容易地进行抓取,那就太棒了。
感谢
答案 0 :(得分:1)
我会调查cURL library抓取网站内容。我不确定您要抓取的确切信息,或者刷新是否会导致问题,但希望这会启动您的尝试。
答案 1 :(得分:0)
我们使用iMacros。 PRO:在浏览器中工作,适用于任何网站。 CON:没有CURL快。 - 当然,没有什么可以阻止你使用它们。
答案 2 :(得分:0)
你必须坚持使用PHP进行抓取吗? TestPlan使这种类型的测试变得容易。您可以再次访问该页面,也可以直接使用TestPlan注册其电子邮件列表,以获得对其网站的扩展访问权限。
这是一个粗略的例子,它将您带到主页面并关闭小弹出窗口:
GotoURL http://www.groupon.com/
Click id:step_one
SubmitForm with
%Params:subscription[email_address]% somewhere@test.domain.xx
end
Click id:close
答案 3 :(得分:0)
如果有帮助,他们会有一个API http://www.groupon.com/pages/api。