wget亚马逊产品页面返回垃圾

时间:2019-05-12 04:16:34

标签: curl amazon wget

我正在尝试使用wget将Amazon产品页面保存到文件中,但是该文件包含所有垃圾。

wget -q -U Mozilla -e robots=off -O ofile https://www.amazon.com/gp/product/B06XGHP6S9

部分输出:

^_<8b>^H^@^@^@^@^@^@^@^TÇ1^N<83>0^L^Eн§0Þ=tè^@Jr<97>/â@Q<9a> l¤r{ÚåI/^L¹Ï~íJ«^?j
^?©¢-<91>µÉiLs<85>YdHë²ý<9e>á<90>ç<88>ï^KãV"çw[:§0<88><90>íSQøyè

不知道为什么会这样。

1 个答案:

答案 0 :(得分:0)

从Amazon的文件的WGET检索GZIP文件。

示例:

wget "https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC"
--2019-10-31 21:25:16--  https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC

解析www.amazon.com ... 99.86.254.138

已连接至www.amazon.com | 99.86.254.138 |:443...。

HTTP请求已发送,正在等待响应... 200 OK

长度:未指定[text / html]

保存到:“ B07RFMFDLC”

121,338 92.6K / s在1.3s内

2019-10-31 21:25:18(92.6 KB / s)-保存了'B07RFMFDLC'[121338]

                                                                                                                                                               file B07RFMFDLC

B07RFMFDLC:来自FAT文件系统(MS-DOS,OS / 2,NT)的gzip压缩数据

                                                                                                                                                                  `mv B07RFMFDLC B07RFMFDLC.gz` #Change file extension so gunzip works.

gunzip B07RFMFDLC.gz#将从gzip文件中提取html