我想只获取选择的选定选项。例如:
<select>
<option value="0">2002/12</option>
<option value="1">2003/12</option>
<option value="2">2004/12</option>
<option value="3">2005/12</option>
<option value="4">2006/12</option>
<option value="5" selected>2007/12</option>
</select>
我知道我能做到
theSelectTag.findAll('option',attrs={'selected':''})
但是这会返回所有选项。有没有办法获得属性存在的所有元素?请注意,我要求所有,因为我正在抓取的网站确实包含多个选项的所选属性。
我正在使用Python 2.7和Beautiful Soup 4.1.2
答案 0 :(得分:9)
传递True
作为属性的值将匹配具有该属性的所有元素:
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('''<select>
... <option value="0">2002/12</option>
... <option value="1">2003/12</option>
... <option value="2">2004/12</option>
... <option value="3">2005/12</option>
... <option value="4">2006/12</option>
... <option value="5" selected>2007/12</option>
... </select>''')
>>> soup.find_all('option', selected=True)
[<option selected="" value="5">2007/12</option>]
>>> soup.find_all('option', {'selected': True})
[<option selected="" value="5">2007/12</option>]
使用lxml:
>>> from lxml import etree
>>> root = etree.HTML('''<select>
<option value="0">2002/12</option>
<option value="1">2003/12</option>
<option value="2">2004/12</option>
<option value="3">2005/12</option>
<option value="4">2006/12</option>
<option value="5" selected>2007/12</option>
</select>''')
>>> root.xpath('//option[@selected]')
[<Element option at 0x228b7d0>]
答案 1 :(得分:0)
你可以使用
theSelectTag.select_one('option:checked')
它会返回给你唯一一个选择的选项。