Question

当我使用BeautifulSoup 4来解析http://www.madcamcnc.com/sales.html，然后寻找表格标签时，它会找到2.当我查看页面的html时，我会看到10个表格。为什么BeautifulSoup不归还所有10个？

from bs4 import BeautifulSoup

import urllib2

page = urllib2.urlopen("http://www.madcamcnc.com/sales.html")
soup = BeautifulSoup(page)
print len(soup.findAll('table'))

Answer 1

该页面的源代码中只有两组<table>...</table>个标记...

还有更多<tr>和<td>个标签，但只有两个表。

Answer 2

查看源显示该页面的实际HTML源代码中只有3个表。其他表必须在页面加载后使用Javascript稍后添加，BeautifulSoup没有看到。

BeautifulSoup只能处理给定的HTML文档，但不会加载或执行Javascript，因此浏览器和文档BeautifulSoup进程之间存在差异。

enter image description here

为什么BeautifulSoup找不到所有标签？

2 个答案: