我正在尝试使用wget将Amazon产品页面保存到文件中,但是该文件包含所有垃圾。
wget -q -U Mozilla -e robots=off -O ofile https://www.amazon.com/gp/product/B06XGHP6S9
部分输出:
^_<8b>^H^@^@^@^@^@^@^@^TÇ1^N<83>0^L^Eн§0Þ=tè^@Jr<97>/â@Q<9a> l¤r{ÚåI/^L¹Ï~íJ«^?j
^?©¢-<91>µÉiLs<85>YdHë²ý<9e>á<90>ç<88>ï^KãV"çw[:§0<88><90>íSQøyè
不知道为什么会这样。
答案 0 :(得分:0)
从Amazon的文件的WGET检索GZIP文件。
示例:
wget "https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC"
--2019-10-31 21:25:16-- https://www.amazon.com/Erasers-Assortment-Colorful-Assorted-Homework/dp/B07RFMFDLC
解析www.amazon.com ... 99.86.254.138
已连接至www.amazon.com | 99.86.254.138 |:443...。
HTTP请求已发送,正在等待响应... 200 OK
长度:未指定[text / html]
保存到:“ B07RFMFDLC”
121,338 92.6K / s在1.3s内
2019-10-31 21:25:18(92.6 KB / s)-保存了'B07RFMFDLC'[121338]
file B07RFMFDLC
B07RFMFDLC:来自FAT文件系统(MS-DOS,OS / 2,NT)的gzip压缩数据
`mv B07RFMFDLC B07RFMFDLC.gz` #Change file extension so gunzip works.
gunzip B07RFMFDLC.gz
#将从gzip文件中提取html