如何在Perl Web爬虫中处理Javascript?

时间:2010-09-22 12:08:03

标签: javascript perl web-crawler web-scraping

我想抓取一个网站,问题是,它充满了JavaScript的东西,比如按钮等,当按下它们时,它们不会更改URL,但页面上的数据会发生变化。

通常我使用LWP / Mechanize等来抓取网站,但都不支持JavaScript。 任何想法?

5 个答案:

答案 0 :(得分:7)

WWW::Scripter模块有JavaScript plugin可能有用。但不能说我自己用过它。

答案 1 :(得分:7)

另一个选项可能是Selenium WWW::Selenium模块

答案 2 :(得分:5)

WWW::Mechanize::Firefox可能有用。这样你可以让Firefox处理复杂的JavaScript问题,然后提取生成的html。

答案 3 :(得分:1)

iMacros for IE / Firefox / Chrome是一款非常灵活的网络抓取工具,可以通过Perl进行控制:http://wiki.imacros.net/Perl

答案 4 :(得分:0)

我建议HtmlUnit和Perl包装:WWW::HtmlUnit