这是一个更普遍的问题,但它对我正在运行的数据挖掘项目有更广泛的影响。我一直在使用wget镜像归档网页进行分析。这是一个大量的数据,我目前的镜像过程已经持续了将近一个星期。这给了我很多时间来观看读数。
wget如何确定下载页面的顺序?我似乎无法辨别其决策制定过程的一致性逻辑(它不按字母顺序,按原始网站创建日期或文件类型进行)。当我开始处理数据时,这将非常有助于掌握。
FWIW,这是我正在使用的命令(它需要cookie,而网站的TOS确实允许以任何方式访问'我不想冒任何机会) - 其中SITE = URL:
wget -m --cookies=on --keep-session-cookies --load-cookies=cookie3.txt --save-cookies=cookie4.txt --referer=SITE --random-wait --wait=1 --limit-rate=30K --user-agent="Mozilla 4.0" SITE
编辑添加:在对Chown的有用答案的评论中,我稍微改进了我的问题,所以在这里。对于较大的网站 - 比如epe.lac-bac.gc.ca/100/205/301/ic/cdc/E/Alphabet.asp - 我发现它最初创建了一个目录结构和一些index.html / default.html页面,但后来又回到了不同的网站几次(抓住了一个例如,每次传递的图像和子页面数量更少
答案 0 :(得分:4)
来自gnu.org wget Recursive Download:
- 递归下载
GNU Wget能够遍历Web的一部分(或单个http 或者ftp服务器),遵循链接和目录结构。我们指的是 这就是递归检索或递归。
使用http urls,Wget从中检索并解析html或css 给定URL,通过标记检索文档引用的文件 像href或src,或使用'url()'指定的css uri值 功能表示法。如果新下载的文件也是类型 text / html,application / xhtml + xml或text / css,它将被解析和 紧接着。
http和html / css内容的递归检索是广度优先。 这意味着Wget首先下载所请求的文档,然后是 从该文档链接的文档,然后链接的文档 他们,等等。换句话说,Wget首先下载文件 深度1,然后深度为2,依此类推,直到指定的最大值 深度。
指定检索可以下降的最大深度 '-l'选项。默认的最大深度为五层。
以递归方式检索ftp网址时,Wget将检索所有网址 来自给定目录树的数据(包括子目录,直到 远程服务器上的指定深度),创建其镜像 本地。 ftp检索也受深度参数的限制。不像 http递归,ftp递归以深度优先的方式执行。
默认情况下,Wget将创建一个本地目录树,对应于 在远程服务器上找到的那个。
.... snip ....
应谨慎使用递归检索。不要说你不是 警告。
从我自己的基本测试开始,当结构深度为1时,它按照从页面顶部到底部的外观顺序排列:
[ 16:28 root@host /var/www/html ]# cat index.html
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en-US">
<head>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
<body>
<div style="text-align:center;">
<h2>Mobile Test Page</h2>
</div>
<a href="/c.htm">c</a>
<a href="/a.htm">a</a>
<a href="/b.htm">b</a>
</body>
</html>
[ 16:28 jon@host ~ ]$ wget -m http://98.164.214.224:8000
--2011-10-15 16:28:51-- http://98.164.214.224:8000/
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 556 [text/html]
Saving to: "98.164.214.224:8000/index.html"
100%[====================================================================================================================================================================================================>] 556 --.-K/s in 0s
2011-10-15 16:28:51 (19.7 MB/s) - "98.164.214.224:8000/index.html" saved [556/556]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/style.css
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 221 [text/css]
Saving to: "98.164.214.224:8000/style.css"
100%[====================================================================================================================================================================================================>] 221 --.-K/s in 0s
2011-10-15 16:28:51 (777 KB/s) - "98.164.214.224:8000/style.css" saved [221/221]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/c.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 0 [text/html]
Saving to: "98.164.214.224:8000/c.htm"
[ <=> ] 0 --.-K/s in 0s
2011-10-15 16:28:51 (0.00 B/s) - "98.164.214.224:8000/c.htm" saved [0/0]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/a.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/a.htm"
100%[====================================================================================================================================================================================================>] 2 --.-K/s in 0s
2011-10-15 16:28:51 (102 KB/s) - "98.164.214.224:8000/a.htm" saved [2/2]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/b.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/b.htm"
100%[====================================================================================================================================================================================================>] 2 --.-K/s in 0s
2011-10-15 16:28:51 (85.8 KB/s) - "98.164.214.224:8000/b.htm" saved [2/2]
FINISHED --2011-10-15 16:28:51--
Downloaded: 5 files, 781 in 0s (2.15 MB/s)