我正在试图抓取this site,我想检查所有锚标签。
我已经导入了beautifulsoup 4.3.2,这是我的代码:
url = """http://www.civicinfo.bc.ca/bids?pn=1"""
Html = urlopen(url).read()
Soup = BeautifulSoup(Html, 'html.parser')
Content = Soup.find_all('a')
我的问题是内容总是空的(即Content = [])。有没有人有任何想法?
答案 0 :(得分:2)
来自the documentation html.parser
在某些版本的Python之前并不是很宽松。所以你可能会看到一些格式错误的HTML。
如果您使用lxml
代替html.parser
那就是说,你可以做些什么来加速美丽的汤。如果 你没有使用lxml作为底层解析器,我的建议是开始。 美丽的汤使用lxml显着更快地解析文档 使用html.parser或html5lib。
所以相关的代码是:
Soup = BeautifulSoup(Html, 'lxml')