我正在尝试使用Perl LWP抓取此页面:
http://livingsocial.com/cities/86/deals/138811-hour-long-photo-session-cd-and-more
我曾经有过能够处理社交生活的代码,但它似乎停止了工作。基本上,我们的想法是抓取页面一次,获取其cookie,在UserAgent中设置cookie,然后再抓取两次。通过这样做,您可以通过欢迎页面:
$response = $browser->get($url);
$cookie_jar->extract_cookies($response);
$browser->cookie_jar($cookie_jar);
$response = $browser->get($url);
$response = $browser->get($url);
这似乎已停止在正常的LivingSocial页面上工作,但似乎仍适用于LivinSocialEscapes。 。E.g,:
http://livingsocial.com/escapes/148029-cook-islands-hotel-+-airfare
有关如何浏览欢迎页面的任何提示?
答案 0 :(得分:3)
看起来此页面仅适用于启用了Javascript的浏览器(LWP::UserAgent
未启用)您可以尝试使用WWW::Mechanize::Firefox
:
use WWW::Mechanize::Firefox;
my $mech = WWW::Mechanize::Firefox->new();
$mech->get($url);
请注意,您必须安装Firefox并为此模块安装mozrepl扩展程序。