使用BeautifulSoup查找所选选项

时间:2013-02-13 21:29:03

标签: python beautifulsoup

我想只获取选择的选定选项。例如:

<select>
  <option value="0">2002/12</option>
  <option value="1">2003/12</option>
  <option value="2">2004/12</option>
  <option value="3">2005/12</option>
  <option value="4">2006/12</option>
  <option value="5" selected>2007/12</option>
</select>

我知道我能做到

theSelectTag.findAll('option',attrs={'selected':''})

但是这会返回所有选项。有没有办法获得属性存在的所有元素?请注意,我要求所有,因为我正在抓取的网站确实包含多个选项的所选属性。

我正在使用Python 2.7和Beautiful Soup 4.1.2

2 个答案:

答案 0 :(得分:9)

传递True作为属性的值将匹配具有该属性的所有元素:

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('''<select>
...   <option value="0">2002/12</option>
...   <option value="1">2003/12</option>
...   <option value="2">2004/12</option>
...   <option value="3">2005/12</option>
...   <option value="4">2006/12</option>
...   <option value="5" selected>2007/12</option>
... </select>''')
>>> soup.find_all('option', selected=True)
    [<option selected="" value="5">2007/12</option>]
>>> soup.find_all('option', {'selected': True})
    [<option selected="" value="5">2007/12</option>]

使用lxml:

>>> from lxml import etree
>>> root = etree.HTML('''<select>
  <option value="0">2002/12</option>
  <option value="1">2003/12</option>
  <option value="2">2004/12</option>
  <option value="3">2005/12</option>
  <option value="4">2006/12</option>
  <option value="5" selected>2007/12</option>
</select>''')
>>> root.xpath('//option[@selected]')
    [<Element option at 0x228b7d0>]

答案 1 :(得分:0)

你可以使用

theSelectTag.select_one('option:checked')

它会返回给你唯一一个选择的选项。