Python数据用美丽的汤刮

时间:2017-05-18 08:55:54

标签: python beautifulsoup

大家好我是Python新手。请让我知道如何使用美丽的汤从代码部分废弃数据。

<Td class=cell>
<br>
<blockquote>
<p><B>Question:</b> Which is the world's leading egg-producing         country?</p>
<p><ol><li><label for="q1824-1"><input type=radio id="q1824-1" name=q1824  onClick="check_answer('q1824correct','q1824incorrect','1','1');">China
</label><br><li><label for="q1824-2"><input type=radio id="q1824-2"  name=q1824   onClick="check_answer('q1824correct','q1824incorrect','2','1');">India
</label><br><li><label for="q1824-3"><input type=radio id="q1824-3" name=q1824 onClick="check_answer('q1824correct','q1824incorrect','3','1');">Japan
</label><br><li><label for="q1824-4"><input type=radio id="q1824-4" name=q1824  onClick="check_answer('q1824correct','q1824incorrect','4','1');">Malaysia</label><br></ol></p>

输出看起来像这样

问题:哪个是世界上最主要的产蛋国?

  1. 中国
  2. 印度
  3. 日本
  4. 马来西亚

1 个答案:

答案 0 :(得分:0)

很难知道你想要什么,因为你的问题(目前的情况)很难定义。

通常,BeautifulSoup中用于抓取HTML的样板是这样的:

response = urllib2.urlopen(url)
html_doc = response.read()
soup = BeautifulSoup(html_doc, 'html.parser')

然后,您可以根据不同的标准从HTML中提取元素,如下所示:

# this would match the top-level element in your snippet
# i.e. <td class="cell">
td_element = soup.find("td", _class="cell")

# this would match all of the <label> elements in your snippet
# (so you'll get a list as your result)
labels = soup.findAll("label")