Question

我尝试阅读的HTLM页面有21个表格。我尝试引用的特定表格是唯一的，因为它具有唯一的<caption>，并且并非所有表格都有标题。

以下是结构的片段：

<table class="wikitable">
    <caption>Very long caption</caption>
    <tbody>
        <tr align="center" bgcolor="#efefef">

我试过了：

soup = BeautifulSoup(r.text, "html.parser")
table1 = soup.find('table', caption="Very long caption")

但是返回一个None对象。

Answer 1

soup.find('table', caption="Very long caption")

这基本上意味着 - 找到table元素，其caption属性值为Very long caption。这显然没有任何回报。

我要做的是按文字找到caption元素并获取parent table element：

soup.find("caption", text="Very long caption").find_parent("table")