刮网并将网站转换为HTML?

时间:2010-08-12 15:30:30

标签: html screen-scraping web-scraping

我在3到4年内没有这样做,但是客户希望将他们的动态网站降级为静态HTML。

是否有任何免费工具可以抓取域并生成有效的HTML文件,以便快速轻松地进行操作?

编辑:如果这很重要,那就是Coldfusion网站。

3 个答案:

答案 0 :(得分:9)

Getleft是一个很好的Windows客户端,可以做到这一点。它非常可配置且可靠。

Wget也可以使用--mirror选项。

答案 1 :(得分:6)

尝试使用httrack(或webhttrack / winhttrack(如果您需要GUI)来蜘蛛网站。它是免费的,快速的,可靠的。它比wget等原始下载程序更强大; httrack专为镜像网站而设计。

请注意,将动态页面转换为静态页面会失去很多功能。它也不总是可能 - 动态网站可以呈现无限数量的不同静态页面。

答案 2 :(得分:2)

我使用它已经很久了,但是webzip非常好。

这不是免费的,但是35美元,我觉得你的客户不会破产。

针对离线浏览器的快速谷歌提出了thisthis看起来不错的选择..