应用错误收集

如何在Perl Web爬虫中处理Javascript？

时间：2010-09-22 12:08:03

标签： javascript perl web-crawler web-scraping

我想抓取一个网站，问题是，它充满了JavaScript的东西，比如按钮等，当按下它们时，它们不会更改URL，但页面上的数据会发生变化。

通常我使用LWP / Mechanize等来抓取网站，但都不支持JavaScript。任何想法？

5 个答案:

答案 0 :(得分：7)

WWW::Scripter模块有JavaScript plugin可能有用。但不能说我自己用过它。

答案 1 :(得分：7)

另一个选项可能是Selenium WWW::Selenium模块

答案 2 :(得分：5)

WWW::Mechanize::Firefox可能有用。这样你可以让Firefox处理复杂的JavaScript问题，然后提取生成的html。

答案 3 :(得分：1)

iMacros for IE / Firefox / Chrome是一款非常灵活的网络抓取工具，可以通过Perl进行控制：http://wiki.imacros.net/Perl

答案 4 :(得分：0)

我建议HtmlUnit和Perl包装：WWW::HtmlUnit。