抓取网站以提取数据

时间:2014-10-21 08:33:54

标签: javascript python web-crawler

有一个网站包含我们为访问而支付的信息,但访问该信息的唯一方法是通过网站,有1400条记录。因此,由于它有很多,我们希望将信息放在可管理的Excel电子表格中。但是,负责该网站的组织并不愿意提供帮助。

我可以编写一个可以解析html并提取相关数据的python脚本,但问题是该站点不易被抓取,因为它是一个ASP站点和许多"链接"实际上触发了加载目标页面的javascript。这意味着像HTTrack这样的工具确实不起作用。

是否还有其他工具或python模块可以帮助我做到这一点(请记住" javascript"链接)?我对这种事情都很陌生,所以我根本没有经历过什么样的事情。

2 个答案:

答案 0 :(得分:1)

Jython + HtmlUnit可能对您的任务非常有用。

答案 1 :(得分:1)

您可以使用Scrapy,这是一个用于抓取网站的框架。