我在Python 2.7中有以下代码,它读取HTML然后尝试查找具有特定属性的标记,如下所示:
from urllib2 import urlopen
from bs4 import BeautifulSoup
...
soup = BeautifulSoup(urlopen("http://www.amazon.com/gp/bestsellers/").read())
tmp = soup.findAll("ul", {"id" : "zg_browseRoot"})
但是当我调试代码时tmp
为空。如果我查看soup
,我会看到:
...
<ul id="zg_browseRoot">
<li>
<span class="zg_selected"> Any Department</span>
</li>
<ul>
<li><a href='http://www.amazon.com/Best-Sellers-Appliances/zgbs/appliances'>Appliances</a></li>
<li><a href='http://www.amazon.com/Best-Sellers-Appstore-Android/zgbs/mobile-apps'>Appstore for Android</a></li>
<li><a href='http://www.amazon.com/Best-Sellers-Arts-Crafts-Sewing/zgbs/arts-crafts'>Arts, Crafts & Sewing</a></li>
...
<li><a href='http://www.amazon.com/Best-Sellers-Watches/zgbs/watches'>Watches</a></li>
</ul>
</li></ul>
...
我做错了什么?谢谢你的帮助。
更新1 我在另一台机器上测试了代码并且工作正常。有没有人见过这样的东西?我的Python或库有什么问题吗?