Question

我正在使用Beautiful soup来抓取一个HTML页面，其中包含两个“前缀”和“后缀”的HTML选择列表。仅当用户从“父”前缀选择列表中选择选项时，才显示第二个列表（后缀）。后缀选择列表中显示的选项随前缀列表中的每个选项而变化。

我正在抓取特定前缀的子集，我想抓取该前缀子集的每个后缀选项的文本。

Python：

prefixSubset = ['A', 'B', 'C']
url = 'http:myUrl.com'
html = urlopen(url)
soup = BeautifulSoup(html)
scrapedPrefixesSubset = soup.findAll(value = prefixSubset)

# Now I want to iterate over scrapedPrefixSubset and get the text for all
# suffix options, which change for each option selected in the prefix list

在父列表中选择了“B”的HTML：

<table>
    <tbody>
        <tr>
            <td>
                <select id="prefixes" onchange="javascript:updatePrefixes()">
                    <option value="A">A</option>
                    <option value="B" selected="selected">B</option>
                    <option value="C">C</option>
                    <option value="D">D</option>
                    <option value="E">E</option>
                    <option value="F">F</option>
                </select>
            </td>
        </tr>
            <td>
                <select id="suffixes" onchange="javascript:updateSuffixes()">
                    <option value="24569">400</option>
                    <option value="15867">500</option>
                    <option value="97463">600</option>
                </select>
            </td>
        </tr>
    </tbody>
</table>

有直接的方法吗？

如何使用BeautifulSoup＆amp; amp;获取父列表中选择子集的子列表中的选项。蟒蛇？

0 个答案: