Question

我想在新闻网站上解析一些文章。但是bs4看不到一些标签

我的代码：

from bs4 import BeautifulSoup
import urllib.request

url="http://www.noi.md/md/news_id/86602"
page = urllib.request.urlopen(url)

soup = BeautifulSoup(page.read(), "html5lib")

heads=soup.find_all( 'h3')

for head in heads:
    print (head.string)

结果：

>>> 
None
Citiţi de asemenea:
Adăugați un comentariu:
Citiţi de asemenea:
>>>

正如您所看到的，它会找到一些标签，但不是全部。还有一个仍然隐藏着。

<h3>
Debutul companiei „<a href="http://viorica.md">Viorica-Cosmetic</a>” în calitate de participant al Festivalului „Lavender Fest” a fost încărcat cu emoții pozitive și oferte tentante pentru vizitatori.
</h3>

是我还是bs4 / html问题？

Answer 1

取自这个答案（enter link description here）：

Tag类型对象上的
.string返回NavigableString类型对象。另一方面，.text获取所有子字符串并使用给定的分隔符返回连接。返回类型.text是unicode对象

将您的代码更改为： head.text

BeautifulSoup4无法在页面上找到h3标签

1 个答案: