Question

我试图提取HTML元素的整个内容，然后我要解析。更确切地说，我有一个网页，我抓了一个网页，我可以用Beautiful Soup识别<select>标签，但我想访问它的子标签。

到目前为止，我有：

import urllib2
from BeautifulSoup import BeautifulSoup as BS

search_url = 'http://example.com/'
response = urllib2.urlopen(self.search_url)
html = response.read()

soup = BS(html)
html_manufacturer_list = soup.findAll("select", attrs = {"id":"manufacturerID"})

实际的HTML我解析如下：

<select id="manufacturerID">
   <option value="1">Abarth</option>
   <option value="2">ABC</option>
   <option value="3">Acura</option>
   <option value="4">Alfa Romeo</option>
   ...
</select>

但是，在运行上述Python代码时，html_manufacturer_list对象仅识别父select标记，并且没有与其子option标记相关的信息。

<select id="manufacturerID"> </select>

搜索<option>代码是..不是一个选项，因为网页上有多个带有选项的<select>代码。

如何从页面中识别或提取<option>标记信息，我们非常感谢您提供任何建议或帮助。

使用Beautiful Soup提取整个html标记（包括子标记）

0 个答案: