当我使用BeautifulSoup 4来解析http://www.madcamcnc.com/sales.html,然后寻找表格标签时,它会找到2.当我查看页面的html时,我会看到10个表格。为什么BeautifulSoup不归还所有10个?
from bs4 import BeautifulSoup
import urllib2
page = urllib2.urlopen("http://www.madcamcnc.com/sales.html")
soup = BeautifulSoup(page)
print len(soup.findAll('table'))
答案 0 :(得分:1)
该页面的源代码中只有两组<table>...</table>
个标记...
还有更多<tr>
和<td>
个标签,但只有两个表。
答案 1 :(得分:1)
查看源显示该页面的实际HTML源代码中只有3个表。其他表必须在页面加载后使用Javascript稍后添加,BeautifulSoup没有看到。
BeautifulSoup只能处理给定的HTML文档,但不会加载或执行Javascript,因此浏览器和文档BeautifulSoup进程之间存在差异。