Question

我尝试用beatifulSoup解决问题。我有内容

content =""" 
<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/">
</div>
"""

我想要的是“基准”字段，但我不能得到的是工作。我试过了：

    soup = BeautifulSoup(content, "html.parser") 
info = {}
for details in soup.find_all("div", {"class" : "topinfo title"}):
    info[details.text.strip(':')] = details.next_sibling.strip('\n')

但我无法让它发挥作用......

Answer 1

我不确定你需要什么，但这可能有用：

from bs4 import BeautifulSoup
doc ='''<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/">
</div>'''
soup = BeautifulSoup(doc, 'lxml')
soup.get_text()

出：

'Kategorie: Serie • Datum: 15.11.16 • IMDB: \n'

如果你明白这一点，你可以随心所欲地玩它。

BeatifulSoup在内容中以“•”得到回应

1 个答案: