无法抓取/抓取与Perl一起使用javascript的网页

时间:2016-02-11 02:22:40

标签: javascript perl web-scraping web-crawler www-mechanize

我一直在努力教自己如何抓取和抓取不同的网站。我对爬行/抓取感觉很好,但只有主要使用HTML的网站。现在我正在使用此链接https://intel.taleo.net/careersection/10000/jobsearch.ftl

我使用Perl(使用机械化)来执行以下任务:我想编写一个爬虫/刮刀来点击"美国"左侧的复选框(过滤结果),然后收集所有作业的标题。但是,我无法使用Perl找到导航到此单选按钮的方法。有人可以让我开始这个吗? (示例代码会有所帮助)。

1 个答案:

答案 0 :(得分:3)

你需要分析页面,看看这个单选按钮是如何强制的,以便在那里有JavaScript代码时使用WWW-Mechanize来填充Javascript代码。

同样在Perl上,您可以在一些处理javascript的爬行模块下方更轻松地处理JavaScript:

1.WWW-Mechanize-Firefox which automate FireFox 
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium 
4.WWW::HtmlUnit  which based on Java HtmlUnit and can handle javascript