我想在新闻网站上解析一些文章。但是bs4看不到一些标签
我的代码:
from bs4 import BeautifulSoup
import urllib.request
url="http://www.noi.md/md/news_id/86602"
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page.read(), "html5lib")
heads=soup.find_all( 'h3')
for head in heads:
print (head.string)
结果:
>>>
None
Citiţi de asemenea:
Adăugați un comentariu:
Citiţi de asemenea:
>>>
正如您所看到的,它会找到一些标签,但不是全部。还有一个仍然隐藏着。
<h3>
Debutul companiei „<a href="http://viorica.md">Viorica-Cosmetic</a>” în calitate de participant al Festivalului „Lavender Fest” a fost încărcat cu emoții pozitive și oferte tentante pentru vizitatori.
</h3>
是我还是bs4 / html问题?
答案 0 :(得分:0)
取自这个答案(enter link description here):
Tag类型对象上的.string返回NavigableString类型对象。另一方面,.text获取所有子字符串并使用给定的分隔符返回连接。返回类型.text是unicode对象
将您的代码更改为:
head.text