我正在尝试抓取网站,这是HTML代码
<h2>Information</h2>
<div>
<span class="dark_text">Type:</span>
<a href="https://myanimelist.net/topanime.php?type=tv">TV</a>
</div>
<div class="spaceit">
<span class="dark_text">Episodes:</span>
12
</div>
<div class="spaceit">
<span class="dark_text">Duration:</span>
25 min. per ep.
</div>
并且我正在尝试在完整的html代码中获得Episodes:
和12
以及Duration:
和25 min. per ep.
以及更多类似内容。
我想要这些值作为字符串
我的python代码是
page_soup = soup(page_html, "html.parser")
spaceit = page_soup.findAll("div",{"class": "spaceit"})
我无法弄清楚如何找到span
和div
的值
答案 0 :(得分:1)
使用select然后运行循环
示例
from bs4 import BeautifulSoup
html = '<h2>Information</h2>' \
'<div>' \
'<span class="dark_text">Type:</span>' \
'<a href="https://myanimelist.net/topanime.php?type=tv">TV</a>' \
'</div>' \
'<div class="spaceit">' \
'<span class="dark_text">Episodes:</span>12</div>' \
'<div class="spaceit">' \
'<span class="dark_text">Duration:</span>25 min. per ep.</div> '
page_soup = BeautifulSoup(html, features="lxml")
elements = page_soup.select('div.spaceit')
for element in elements:
print(element.get_text())