有一个网站包含我们为访问而支付的信息,但访问该信息的唯一方法是通过网站,有1400条记录。因此,由于它有很多,我们希望将信息放在可管理的Excel电子表格中。但是,负责该网站的组织并不愿意提供帮助。
我可以编写一个可以解析html并提取相关数据的python脚本,但问题是该站点不易被抓取,因为它是一个ASP站点和许多"链接"实际上触发了加载目标页面的javascript。这意味着像HTTrack这样的工具确实不起作用。
是否还有其他工具或python模块可以帮助我做到这一点(请记住" javascript"链接)?我对这种事情都很陌生,所以我根本没有经历过什么样的事情。
答案 0 :(得分:1)
Jython + HtmlUnit可能对您的任务非常有用。
答案 1 :(得分:1)
您可以使用Scrapy,这是一个用于抓取网站的框架。