wget没有返回正确的页面

时间:2012-07-31 08:38:31

标签: http download wget

当我通过我的Firefox 13访问this网站时,我得到了一个包含一些内容的页面。但是当我使用wget下载它时:

wget http://tinhvan.com

我在下载的HTML页面上获得了其他内容。尝试设置用户代理:

wget -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com

但结果相同。

发生什么事了?如何通过Firefox访问它时获得相同的结果?

更新

这是来自Firefox =>查看来源:

<!DOCTYPE html>

<html dir="ltr" lang="vi">  

    <head id="ctl00_page_header">




            <title>

                Tinhvan Group - Trang chủ       

这里是从wget下载的

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><link href="Content/images/main.css" rel="stylesheet" type="text/css" /><link href="Content/images/mail-detail.css" rel="stylesheet" type="text/css" />
    <script src="../../Content/JqueryUI/js/jquery-1.3.2.min.js" type="text/javascript"></script>    
    <title>

    Trang chủ - Tinhvan Group Website

1 个答案:

答案 0 :(得分:1)

Firefox(不仅仅是FF,Chrome,IE等)也会自动添加Accept *标题。

e.g。

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate
Accept-Language: en-US, en;q=0.5

尝试

wget --header="Accept: text/html"  -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com

注意:如果您没有声明Accept标头,那么wget会自动添加Accept:* / *这意味着给我任何你拥有的东西。看来该网站默认返回aplication / xhtml + xml,但您需要text / html。

相关问题