Question

我正在尝试根据href字符串获取td个标记内的所有td个链接。我已成功设法获取与BeautifulSoup模块的所有href链接，但我只对href标记下td类包含特定字符串的特定td链接感兴趣。是否可以使用BeautifulSoup模块或Python中的任何其他模块提取这些？

      <td title="" class="pass">
          <a href="link info">
            <div class="fill"></div>
          </a>
      </td>

      <td title="" class="fail">
          <a href="inlk">
            <div class="fill"></div>
          </a>
      </td>

      <div class="fill"></div>
   </a>
</td>

我有兴趣在href班级为td的此网页中获取所有pass个链接。

Answer 1

您可以使用CSS selector：

for link in soup.select('td.pass a[href]'):
    print link['href']

Answer 2

from BeautifulSoup import BeautifulSoup,SoupStrainer
import requests
import re
c_link = 'your_link'
r = requests.get(c_link)
data = r.text
soup = BeautifulSoup(data, parseOnlyThese=SoupStrainer("td"))
x = soup.findAll("a")
for tr in x:
    links = tr.get('href')
    print links

这将从页面中显示的td中获取href。希望这对你有用。

如何在Python中的td标记内获取href值

2 个答案: