当我通过我的Firefox 13访问this网站时,我得到了一个包含一些内容的页面。但是当我使用wget下载它时:
wget http://tinhvan.com
我在下载的HTML页面上获得了其他内容。尝试设置用户代理:
wget -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com
但结果相同。
发生什么事了?如何通过Firefox访问它时获得相同的结果?
更新
这是来自Firefox =>查看来源:
<!DOCTYPE html>
<html dir="ltr" lang="vi">
<head id="ctl00_page_header">
<title>
Tinhvan Group - Trang chủ
这里是从wget下载的
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><link href="Content/images/main.css" rel="stylesheet" type="text/css" /><link href="Content/images/mail-detail.css" rel="stylesheet" type="text/css" />
<script src="../../Content/JqueryUI/js/jquery-1.3.2.min.js" type="text/javascript"></script>
<title>
Trang chủ - Tinhvan Group Website
答案 0 :(得分:1)
Firefox(不仅仅是FF,Chrome,IE等)也会自动添加Accept *标题。
e.g。
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate
Accept-Language: en-US, en;q=0.5
尝试
wget --header="Accept: text/html" -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com
注意:如果您没有声明Accept标头,那么wget会自动添加Accept:* / *这意味着给我任何你拥有的东西。看来该网站默认返回aplication / xhtml + xml,但您需要text / html。