Question

我正在试图抓取this site，我想检查所有锚标签。

我已经导入了beautifulsoup 4.3.2，这是我的代码：

url = """http://www.civicinfo.bc.ca/bids?pn=1"""
Html = urlopen(url).read()
Soup = BeautifulSoup(Html, 'html.parser')
Content = Soup.find_all('a')

我的问题是内容总是空的（即Content = []）。有没有人有任何想法？

Answer 1

来自the documentation html.parser在某些版本的Python之前并不是很宽松。所以你可能会看到一些格式错误的HTML。

如果您使用lxml代替html.parser

，您想要做什么

那就是说，你可以做些什么来加速美丽的汤。如果你没有使用lxml作为底层解析器，我的建议是开始。美丽的汤使用lxml显着更快地解析文档使用html.parser或html5lib。

所以相关的代码是：

Soup = BeautifulSoup(Html, 'lxml')