Question

我试图解析一个网站并获得一些关于BeautifulSoup.findAll的信息，但它并没有找到所有信息..我使用的是python3.5.1

代码就是这个

import urllib.request

from urllib.request import urlopen
from bs4 import BeautifulSoup


url = ("http://www.kvk.nl/orderstraat/product-kiezen/kvknummer=547093180000&origq=brasserie+1718")
html = urlopen(url)
soup = BeautifulSoup(html, "html.parser")

for tag in soup.findAll(True):
print(tag.name)

问题如下：似乎完全停止＆＃34;发现＆＃34;在＆＃34;身体＆＃34;代码的标签。更具体的是它似乎没有找到＆＃34; body＆＃34;标记和后面的所有标记。当我运行代码时，我只得到以下15个标签：

html，head，title，meta，meta，meta，meta，link，link，link，link，link，link，script，script

当我将汤打印到终端时，它似乎打印出整个html，它还显示了＆＃34; body＆＃34;标签和内部的一切。

我特别想要实现的是抓住＆＃34; h3数据的内容＆＃34;＆＃34; h3 data-bedrijf＆＃34;标记：

<h3 data-bedrijf='Brasserie 1718'>Brasserie 1718</h3><p class="type">Hoofdvestiging</p><p>KvK 54709318</p><p>Vestigingsnr. 000024444634</p><p>Herenweg 49</p><p>Hoogwoud</p><div class="info">

不幸的是我找不到findAll（h3）

这个标签

有人可以帮忙吗？我花了整个下午和整个晚上的一部分找出解决方案。虽然论坛涵盖了类似的问题，但所提供的补救措施并没有提供预期的结果。

BeautifulSoup找到所有似乎都找不到

0 个答案: