我有以下链接,即通过网络浏览器下载CSV文件。
http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre=
但是,当使用Wget with Cygwin时,使用下面的命令,Wget将检索一个文件,该文件不是CSV文件,而是一个没有扩展名的文件。该文件为空,即根本没有数据。
wget 'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre='
因此,我不想被卡住,我也尝试了以下内容。我将URL放在一个文本文件中,并使用带有文件选项的Wget:
在fic.txt里面
'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre='
我用以下方式使用Wget:
wget -i fic.txt
我收到了以下错误:
Scheme missing
No URLs found in toto.txt
答案 0 :(得分:2)
我想我可以建议一些其他选项,这些选项可以使您的基础问题更加清晰,因为它应该是html,但没有内容(content-length = 0)。
更具体地说,这个
wget -S -O export_classement.html 'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre='
产生这个
Resolving pro.allocine.fr... 62.39.143.50
Connecting to pro.allocine.fr|62.39.143.50|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 28 Mar 2014 09:54:44 GMT
Content-Type: text/html; Charset=iso-8859-1
Connection: close
X-ServerName: WEBNX2
akamainocache: no-store
Content-Length: 0
Cache-control: private
X-KompressorName: kompressor7
Length: 0 [text/html]
2014-03-28 05:54:52 (0.00 B/s) - ‘export_classement.html’ saved [0/0]
此外,服务器根据浏览器识别自身的方式定制输出。使用wget确实可以选择在头文件中包含任意用户代理。这是一个例子,当你让wget将自己标识为Chrome时会发生什么。 Here's a list of other possibiities
wget -S --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36" 'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre='
现在输出更改为export.csv,类型为" application / octet-stream"而不是" text / html"
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 28 Mar 2014 10:34:09 GMT
Content-Type: application/octet-stream; Charset=iso-8859-1
Transfer-Encoding: chunked
Connection: close
X-ServerName: WEBNX2
Edge-Control: no-store
Last-Modified: Fri, 28 Mar 2014 10:34:17 GMT
Content-Disposition: attachment; filename=export.csv