BeautifulSoup找到所有似乎都找不到

时间:2016-06-07 20:27:07

标签: html

我试图解析一个网站并获得一些关于BeautifulSoup.findAll的信息,但它并没有找到所有信息..我使用的是python3.5.1

代码就是这个

import urllib.request

from urllib.request import urlopen
from bs4 import BeautifulSoup


url = ("http://www.kvk.nl/orderstraat/product-kiezen/kvknummer=547093180000&origq=brasserie+1718")
html = urlopen(url)
soup = BeautifulSoup(html, "html.parser")

for tag in soup.findAll(True):
print(tag.name)

问题如下: 似乎完全停止"发现"在"身体"代码的标签。更具体的是它似乎没有找到" body"标记和后面的所有标记。当我运行代码时,我只得到以下15个标签:

html,head,title,meta,meta,meta,meta,link,link,link,link,link,link,script,script

当我将汤打印到终端时,它似乎打印出整个html,它还显示了" body"标签和内部的一切。

我特别想要实现的是抓住" h3数据的内容"" h3 data-bedrijf"标记:

<h3 data-bedrijf='Brasserie 1718'>Brasserie 1718</h3><p class="type">Hoofdvestiging</p><p>KvK 54709318</p><p>Vestigingsnr. 000024444634</p><p>Herenweg 49</p><p>Hoogwoud</p><div class="info">

不幸的是我找不到findAll(h3)

这个标签

有人可以帮忙吗?我花了整个下午和整个晚上的一部分找出解决方案。虽然论坛涵盖了类似的问题,但所提供的补救措施并没有提供预期的结果。

0 个答案:

没有答案