我使用pavuk
来抓取网站。但是,pavuk从一个特定服务器下载的图像已损坏!看来它们只有几个字节:
/usr/bin/pavuk http://files.zemedelska-krajina.cz/200000061-0970a0a6ab/50000000.jpg
输出
URL[ 1]: 1(0) of 1 http://files.zemedelska-krajina.cz/200000061-0970a0a6ab/50000000.jpg
Starting time : 19:14:20
S: 31256 B [R: 617.0 kB/s] [ET: 0:00:00]
Received Encoded file but decoding not allowed (untouched)
Ending time : 19:14:20
download: OK
pavuk下载的图像只有31256
个字节,而原始图像只有31331
个字节!问题在哪里?
密钥可能在于消息“已接收编码文件但不允许解码”。不确定这意味着什么,但即使添加-Enc
选项也无法解决问题。
我在Debian 7上使用了pavuk-0.9.35(wheezy)。我将非常感谢你的建议。