Scrapy VS wget VS curl

时间:2016-06-23 04:24:04

标签: curl scrapy web-crawler wget

我目前正在开展一个需要两个主要功能的项目:

  1. 仅从网站下载单个HTML页面(例如www.my website.com/index.html)

  2. 从网站下载每个HTML页面,递归排除外部链接(基本上下载整个网站)

  3. 我需要所有HTML页面中包含的所有图像和链接,而不仅仅是文本。

    我目前正在使用scrapy进行这两项功能。它运作良好,但我想知道我是否会更好地使用wget或curl。

    我的问题:

    哪种工具最适合我实现目标?

2 个答案:

答案 0 :(得分:3)

Wget可以做到这一点。

请参阅:http://www.linuxjournal.com/content/downloading-entire-web-site-wget

基本上

$ wget \
 --recursive \
 --no-clobber \
 --page-requisites \
 --html-extension \
 --convert-links \
 --restrict-file-names=windows \
 --domains website.org \
 --no-parent \
     www.website.org/tutorials/html/

--recursive应保存链接

--page-requisites应该保存css,图片等。

答案 1 :(得分:1)

1。 wget可以做到这一点,但可以通过使用其他工具轻松完成

wget -m -k -K -E -p http://url/of/web/site

-p用于下载资产。如果您要抓取某些第三方网站,可以添加等级选项-w 10 --random-wait。

2。 HTTRACK是复制整个网站内容的有效方式。该工具能够获取使工作代码内容的网站脱机工作所必需的部分。

    Windows上的
  1. WebCopier