如何从BeautifulSoup的表中获取第一个和第三个td?

时间:2013-08-14 08:54:46

标签: python html html-table beautifulsoup html-parsing

我目前正在使用Python和BeautifulSoup来抓取一些网站数据。 我正在尝试从表格中拉出单元格,格式如下:

<tr><td>1<td><td>20<td>5%</td></td></td></td></tr>

上述HTML的问题在于BeautifulSoup将其作为一个标记读取。我需要从第一个<td>和第三个<td>中提取值,分别为1和20。

不幸的是,我不知道如何解决这个问题。如何让BeautifulSoup读取表格每一行的第一个和第三个<td>标签?

更新

我弄明白了这个问题。我使用html.parser而不是BeautifulSoup的默认值。一旦我切换到默认值,问题就消失了。我也使用了答案中列出的方法。

我还发现不同的解析器非常具有破坏代码的气质。例如,默认解析器拒绝读取第192行,但html5lib已完成工作。如果您有,请尝试使用lxmlhtmlhtml5lib解析整个表的问题。

1 个答案:

答案 0 :(得分:10)

这是一个令人讨厌的HTML,你已经到了那里。如果我们暂时忽略表行和表格单元的语义并将其视为纯XML,其结构如下所示:

<tr>
  <td>1
    <td>
      <td>20
        <td>5%</td>
      </td>
    </td>
  </td>
</tr>

然而,BeautifulSoup知道HTML表的语义,而是像这样解析它:

<tr>
  <td>1        <!-- an IMPLICITLY (no closing tag) closed td element -->
  <td>         <!-- as above -->
  <td>20       <!-- as above -->
  <td>5%</td>  <!-- an EXPLICITLY closed td element -->
  </td>        <!-- an error; ignore this -->
  </td>        <!-- as above -->
  </td>        <!-- as above -->
</tr>

...所以,正如你所说,1和20分别在第一个和第三个td元素(not tags)中。

您实际上可以获得这些td元素的内容:

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<tr><td>1<td><td>20<td>5%</td></td></td></td></tr>")
>>> tr = soup.find("tr")
>>> tr
<tr><td>1</td><td></td><td>20</td><td>5%</td></tr>
>>> td_list = tr.find_all("td")
>>> td_list
[<td>1</td>, <td></td>, <td>20</td>, <td>5%</td>]
>>> td_list[0]  # Python starts counting list items from 0, not 1
<td>1</td>
>>> td_list[0].text
'1'
>>> td_list[2].text
'20'
>>> td_list[3].text
'5%'