为什么python的wget / curl / urllib2提供了与浏览器中的查看源不同的html页面

时间:2013-01-22 08:00:47

标签: html curl urllib2 wget

我正在尝试使用urllib2从站点获取一些数据,并且我得到的HTML页面与我在单击视图源时看到的不同(有些元素在div中交换,div中的某些元素完全没有等)< / p>

例如: 试试这个python脚本

import urllib2

markup = urllib2.urlopen("http://www.ebay.com/sch/i.html?_trksid=p5197.m570.l1313&_nkw=harry+potter&_sacat=0&_from=R40").read()

以及上面的一些示例代码(这是错误的,这不是数据在页面上的显示方式,也是用firebug检查过的)

<div class="catsgroup">
    <div class="cat-t"><a href="http://www.ebay.com/sch/Books-/267/i.html?_from=R40&amp;_nkw=harry+potter">Books</a><span class="cnt">&nbsp;(7,777)</span></div>
    <div class="cat-c">
        <div class="default">
            <div class="cat-link"><a href="http://www.ebay.com/sch/Children-Young-Adults-/279/i.html?_from=R40&amp;_nkw=harry+potter">Children &amp; Young Adults</a><span class="cnt">&nbsp;(1,999)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Nonfiction-/378/i.html?_from=R40&amp;_nkw=harry+potter">Nonfiction</a><span class="cnt">&nbsp;(2,414)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Fiction-Literature-/377/i.html?_from=R40&amp;_nkw=harry+potter">Fiction &amp; Literature</a><span class="cnt">&nbsp;(1,461)</span></div> 
            **<div class="cat-link"><a href="http://www.ebay.com/sch/Antiquarian-Collectible-/29223/i.html?_from=R40&amp;_nkw=harry+potter">Antiquarian &amp; Collectible</a><span class="cnt">&nbsp;(508)</span></div>**
        </div>
    </div>
</div>

**的最后一行不属于视图源中的那个标记,但它在 curl / wget / urllib2

来自观看源的相同代码段(这实际上是如何在页面上查看数据

<div class="catsgroup">
    <div class="cat-t"><a href="http://www.ebay.com/sch/Books-/267/i.html?_from=R40&amp;_nkw=harry+potter">Books</a><span class="cnt">&nbsp;(4,358)</span></div>
    <div class="cat-c">
        <div class="default">
            <div class="cat-link"><a href="http://www.ebay.com/sch/Children-Young-Adults-/279/i.html?_from=R40&amp;_nkw=harry+potter">Children &amp; Young Adults</a><span class="cnt">&nbsp;(1,334)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Nonfiction-/378/i.html?_from=R40&amp;_nkw=harry+potter">Nonfiction</a><span class="cnt">&nbsp;(1,298)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Fiction-Literature-/377/i.html?_from=R40&amp;_nkw=harry+potter">Fiction &amp; Literature</a><span class="cnt">&nbsp;(710)</span></div> 
        </div>
    </div>
</div>

任何有关此处出错的帮助以及如何获取视图源中显示的正确html表示赞赏。

提前致谢

0 个答案:

没有答案