BeautifulSoup刮刮:我很困惑

时间:2016-02-02 18:01:50

标签: python beautifulsoup

我正在试图抓取this site,我想检查所有锚标签。

我已经导入了beautifulsoup 4.3.2,这是我的代码:

url = """http://www.civicinfo.bc.ca/bids?pn=1"""
Html = urlopen(url).read()
Soup = BeautifulSoup(Html, 'html.parser')
Content = Soup.find_all('a')

我的问题是内容总是空的(即Content = [])。有没有人有任何想法?

1 个答案:

答案 0 :(得分:2)

来自the documentation html.parser在某些版本的Python之前并不是很宽松。所以你可能会看到一些格式错误的HTML。

如果您使用lxml代替html.parser

,您想要做什么

来自the documentation

  

那就是说,你可以做些什么来加速美丽的汤。如果   你没有使用lxml作为底层解析器,我的建议是开始。   美丽的汤使用lxml显着更快地解析文档   使用html.parser或html5lib。

所以相关的代码是:

Soup = BeautifulSoup(Html, 'lxml')