我尝试用beatifulSoup解决问题。 我有内容
content ="""
<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/">
</div>
"""
我想要的是“基准”字段,但我不能得到的是工作。 我试过了:
soup = BeautifulSoup(content, "html.parser")
info = {}
for details in soup.find_all("div", {"class" : "topinfo title"}):
info[details.text.strip(':')] = details.next_sibling.strip('\n')
但我无法让它发挥作用......
答案 0 :(得分:0)
我不确定你需要什么,但这可能有用:
from bs4 import BeautifulSoup
doc ='''<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/">
</div>'''
soup = BeautifulSoup(doc, 'lxml')
soup.get_text()
出:
'Kategorie: Serie • Datum: 15.11.16 • IMDB: \n'
如果你明白这一点,你可以随心所欲地玩它。