Question

我正在尝试使用wget将Amazon产品页面保存到文件中，但是该文件包含所有垃圾。

wget -q -U Mozilla -e robots=off -O ofile https://www.amazon.com/gp/product/B06XGHP6S9

部分输出：

^_<8b>^H^@^@^@^@^@^@^@^TÇ1^N<83>0^L^EÐ½§0Þ=tè^@Jr<97>/â@Q<9a> l¤r{ÚåI/^L¹Ï~íJ«^?j
^?©¢-<91>µÉiLs<85>YdHë²ý<9e>á<90>ç<88>ï^KãV"çw[:§0<88><90>íSQøyè

不知道为什么会这样。

Answer 1

从Amazon的文件的WGET检索GZIP文件。

示例：

wget "https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC"
--2019-10-31 21:25:16--  https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC

解析www.amazon.com ... 99.86.254.138

已连接至www.amazon.com | 99.86.254.138 |：443...。

HTTP请求已发送，正在等待响应... 200 OK

长度：未指定[text / html]

保存到：“ B07RFMFDLC”

121,338 92.6K / s在1.3s内

2019-10-31 21:25:18（92.6 KB / s）-保存了'B07RFMFDLC'[121338]

                                                                                                                                                               file B07RFMFDLC

B07RFMFDLC：来自FAT文件系统（MS-DOS，OS / 2，NT）的gzip压缩数据

                                                                                                                                                                  `mv B07RFMFDLC B07RFMFDLC.gz` #Change file extension so gunzip works.

gunzip B07RFMFDLC.gz＃将从gzip文件中提取html

wget亚马逊产品页面返回垃圾

1 个答案: