我正在尝试使用urllib2从站点获取一些数据,并且我得到的HTML页面与我在单击视图源时看到的不同(有些元素在div中交换,div中的某些元素完全没有等)< / p>
例如: 试试这个python脚本
import urllib2
markup = urllib2.urlopen("http://www.ebay.com/sch/i.html?_trksid=p5197.m570.l1313&_nkw=harry+potter&_sacat=0&_from=R40").read()
以及上面的一些示例代码(这是错误的,这不是数据在页面上的显示方式,也是用firebug检查过的)
<div class="catsgroup">
<div class="cat-t"><a href="http://www.ebay.com/sch/Books-/267/i.html?_from=R40&_nkw=harry+potter">Books</a><span class="cnt"> (7,777)</span></div>
<div class="cat-c">
<div class="default">
<div class="cat-link"><a href="http://www.ebay.com/sch/Children-Young-Adults-/279/i.html?_from=R40&_nkw=harry+potter">Children & Young Adults</a><span class="cnt"> (1,999)</span></div>
<div class="cat-link"><a href="http://www.ebay.com/sch/Nonfiction-/378/i.html?_from=R40&_nkw=harry+potter">Nonfiction</a><span class="cnt"> (2,414)</span></div>
<div class="cat-link"><a href="http://www.ebay.com/sch/Fiction-Literature-/377/i.html?_from=R40&_nkw=harry+potter">Fiction & Literature</a><span class="cnt"> (1,461)</span></div>
**<div class="cat-link"><a href="http://www.ebay.com/sch/Antiquarian-Collectible-/29223/i.html?_from=R40&_nkw=harry+potter">Antiquarian & Collectible</a><span class="cnt"> (508)</span></div>**
</div>
</div>
</div>
**的最后一行不属于视图源中的那个标记,但它在 curl / wget / urllib2
中来自观看源的相同代码段(这实际上是如何在页面上查看数据)
<div class="catsgroup">
<div class="cat-t"><a href="http://www.ebay.com/sch/Books-/267/i.html?_from=R40&_nkw=harry+potter">Books</a><span class="cnt"> (4,358)</span></div>
<div class="cat-c">
<div class="default">
<div class="cat-link"><a href="http://www.ebay.com/sch/Children-Young-Adults-/279/i.html?_from=R40&_nkw=harry+potter">Children & Young Adults</a><span class="cnt"> (1,334)</span></div>
<div class="cat-link"><a href="http://www.ebay.com/sch/Nonfiction-/378/i.html?_from=R40&_nkw=harry+potter">Nonfiction</a><span class="cnt"> (1,298)</span></div>
<div class="cat-link"><a href="http://www.ebay.com/sch/Fiction-Literature-/377/i.html?_from=R40&_nkw=harry+potter">Fiction & Literature</a><span class="cnt"> (710)</span></div>
</div>
</div>
</div>
任何有关此处出错的帮助以及如何获取视图源中显示的正确html表示赞赏。
提前致谢