对Python不熟悉我花了大约一个小时试图从div中的标题中找到一个Python 2.7.x和Beautiful Soup的字符串:
import urllib2
from bs4 import BeautifulSoup
request = urllib2.Request("http://somerandomurl.org")
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)
HTML文件如下所示:
<div class="ABC">
<h1>My string</h1>
</div>
我无法描述Beautiful Soup Documentation我在这里试过的所有方法(包括print soup.div('ABC').h1
...),但我认为在阅读时我遇到了一些可怕的错误。谢谢你的帮助。
答案 0 :(得分:2)
你想:
soup.find('div', class_='ABC').h1
会找到带有div
类的第一个 ABC
标记,然后遍历其中的第一个H1标记:
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('''
... <div class="ABC">
... <h1>My string</h1>
... </div>
... ''')
>>> soup.find('div', class_='ABC').h1
<h1>My string</h1>