如何使用Beautifulsoup提取文本

时间:2015-09-23 18:35:25

标签: python html beautifulsoup html-parsing

在这种情况下,您能否告诉我如何使用BeautifulSoup提取标题文本(Inna):

<div class="wallpapers-box-300x180-2 wallpapers-margin-2">
<div class="wallpapers-box-300x180-2-img"><a title="Inna" href="/photo.jpg" alt="Inna" width="300" height="188" /></a></div>
<div class="wallpapers-box-300x180-2-title"><a title="Inna" href="/wallpapers/inna/">Inna</a></div>

感谢。

1 个答案:

答案 0 :(得分:1)

在这种情况下,有很多方法可以找到元素,并且很难分辨哪种方式对你有用,因为我们不知道问题的范围,元素的独特之处你知道什么,可以依靠什么。

我认为最实用的方法是使用以下CSS selector

for elm in soup.select('div[class^="wallpapers-box"] > a[href*=wallpapers]'):
    print(elm.get_text())

我们在这里检查父div元素的类,以wallpapers-box开头,找到a内有wallpapers文字的直接href子元素1}}属性值。