为什么BeautifulSoup找不到所有标签?

时间:2014-01-15 04:55:26

标签: python beautifulsoup

当我使用BeautifulSoup 4来解析http://www.madcamcnc.com/sales.html,然后寻找表格标签时,它会找到2.当我查看页面的html时,我会看到10个表格。为什么BeautifulSoup不归还所有10个?

from bs4 import BeautifulSoup

import urllib2

page = urllib2.urlopen("http://www.madcamcnc.com/sales.html")
soup = BeautifulSoup(page)
print len(soup.findAll('table'))

2 个答案:

答案 0 :(得分:1)

该页面的源代码中只有两组<table>...</table>个标记...

还有更多<tr><td>个标签,但只有两个表。

答案 1 :(得分:1)

查看源显示该页面的实际HTML源代码中只有3个表。其他表必须在页面加载后使用Javascript稍后添加,BeautifulSoup没有看到。

BeautifulSoup只能处理给定的HTML文档,但不会加载或执行Javascript,因此浏览器和文档BeautifulSoup进程之间存在差异。

enter image description here