Question

当我通过我的Firefox 13访问this网站时，我得到了一个包含一些内容的页面。但是当我使用wget下载它时：

wget http://tinhvan.com

我在下载的HTML页面上获得了其他内容。尝试设置用户代理：

wget -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com

但结果相同。

发生什么事了？如何通过Firefox访问它时获得相同的结果？

更新

这是来自Firefox =＆gt;查看来源：

<!DOCTYPE html>

<html dir="ltr" lang="vi">  

    <head id="ctl00_page_header">




            <title>

                Tinhvan Group - Trang chủ

这里是从wget下载的

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><link href="Content/images/main.css" rel="stylesheet" type="text/css" /><link href="Content/images/mail-detail.css" rel="stylesheet" type="text/css" />
    <script src="../../Content/JqueryUI/js/jquery-1.3.2.min.js" type="text/javascript"></script>    
    <title>

    Trang chủ - Tinhvan Group Website

Answer 1

Firefox（不仅仅是FF，Chrome，IE等）也会自动添加Accept *标题。

e.g。

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate
Accept-Language: en-US, en;q=0.5

尝试

wget --header="Accept: text/html"  -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com

注意：如果您没有声明Accept标头，那么wget会自动添加Accept：* / *这意味着给我任何你拥有的东西。看来该网站默认返回aplication / xhtml + xml，但您需要text / html。

wget没有返回正确的页面

1 个答案: