我想抓取一个网站,问题是,它充满了JavaScript的东西,比如按钮等,当按下它们时,它们不会更改URL,但页面上的数据会发生变化。
通常我使用LWP / Mechanize等来抓取网站,但都不支持JavaScript。 任何想法?
答案 0 :(得分:7)
WWW::Scripter模块有JavaScript plugin可能有用。但不能说我自己用过它。
答案 1 :(得分:7)
另一个选项可能是Selenium WWW::Selenium模块
答案 2 :(得分:5)
WWW::Mechanize::Firefox可能有用。这样你可以让Firefox处理复杂的JavaScript问题,然后提取生成的html。
答案 3 :(得分:1)
iMacros for IE / Firefox / Chrome是一款非常灵活的网络抓取工具,可以通过Perl进行控制:http://wiki.imacros.net/Perl
答案 4 :(得分:0)
我建议HtmlUnit和Perl包装:WWW::HtmlUnit。