存储html标记的未知ID

时间:2014-06-19 14:23:55

标签: python html tags web-scraping beautifulsoup

所以我试图使用BeautifulSoup来抓取一个html,但是我在使用Python 3.4找到一个标签id时遇到了问题。我知道标签("tr")是什么,但id不断变化,我想在它改变时保存id。例如:

<div class = "thisclass"
  <table id = "thistable">
    <tbody>
      <tr id="what i want">
        <td class = "someinfo">
   <tbody>           
  <table>
<div>       

我可以找到div代码和table,我知道tr代码在那里,但我想提取{{1}旁边的text }},不知道id会说些什么。

到目前为止,我有这段代码:

text

如果有人能帮我解决这个问题,我将不胜感激。

1 个答案:

答案 0 :(得分:0)

您可以使用css selector

print([element.get('id') for element in soup.select('table#thistable tr[id]'))