我正在使用Beautiful soup来抓取一个HTML页面,其中包含两个“前缀”和“后缀”的HTML选择列表。仅当用户从“父”前缀选择列表中选择选项时,才显示第二个列表(后缀)。后缀选择列表中显示的选项随前缀列表中的每个选项而变化。
我正在抓取特定前缀的子集,我想抓取该前缀子集的每个后缀选项的文本。
Python:
prefixSubset = ['A', 'B', 'C']
url = 'http:myUrl.com'
html = urlopen(url)
soup = BeautifulSoup(html)
scrapedPrefixesSubset = soup.findAll(value = prefixSubset)
# Now I want to iterate over scrapedPrefixSubset and get the text for all
# suffix options, which change for each option selected in the prefix list
在父列表中选择了“B”的HTML:
<table>
<tbody>
<tr>
<td>
<select id="prefixes" onchange="javascript:updatePrefixes()">
<option value="A">A</option>
<option value="B" selected="selected">B</option>
<option value="C">C</option>
<option value="D">D</option>
<option value="E">E</option>
<option value="F">F</option>
</select>
</td>
</tr>
<td>
<select id="suffixes" onchange="javascript:updateSuffixes()">
<option value="24569">400</option>
<option value="15867">500</option>
<option value="97463">600</option>
</select>
</td>
</tr>
</tbody>
</table>
有直接的方法吗?