尝试使用BeautifulSoup在HTML文档中查找特定表

时间:2015-12-30 01:08:43

标签: python html beautifulsoup

我尝试阅读的HTLM页面有21个表格。我尝试引用的特定表格是唯一的,因为它具有唯一的<caption>,并且并非所有表格都有标题。

以下是结构的片段:

<table class="wikitable">
    <caption>Very long caption</caption>
    <tbody>
        <tr align="center" bgcolor="#efefef">

我试过了:

soup = BeautifulSoup(r.text, "html.parser")
table1 = soup.find('table', caption="Very long caption")

但是返回一个None对象。

1 个答案:

答案 0 :(得分:3)

  

soup.find('table', caption="Very long caption")

这基本上意味着 - 找到table元素,其caption属性值为Very long caption。这显然没有任何回报。

我要做的是按文字找到caption元素并获取parent table element

soup.find("caption", text="Very long caption").find_parent("table")