Python / Beautiful Soup - 在div中的标题内查找字符串

时间:2013-03-12 22:06:24

标签: python beautifulsoup

对Python不熟悉我花了大约一个小时试图从div中的标题中找到一个Python 2.7.x和Beautiful Soup的字符串:

import urllib2
from bs4 import BeautifulSoup

request = urllib2.Request("http://somerandomurl.org")
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)

HTML文件如下所示:

<div class="ABC">
    <h1>My string</h1>
</div>

我无法描述Beautiful Soup Documentation我在这里试过的所有方法(包括print soup.div('ABC').h1 ...),但我认为在阅读时我遇到了一些可怕的错误。谢谢你的帮助。

1 个答案:

答案 0 :(得分:2)

你想:

soup.find('div', class_='ABC').h1

会找到带有div类的第一个 ABC标记,然后遍历其中的第一个H1标记:

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('''
... <div class="ABC">
...     <h1>My string</h1>
... </div>
... ''')
>>> soup.find('div', class_='ABC').h1
<h1>My string</h1>