Python:从同一个html格式中只抓取一个url

时间:2017-10-19 08:00:23

标签: python html scrape

html:

 <li class="dropdown menu-large menu_index_link"><a href="/MainPage" title="A">A</a></li>
 <li class="dropdown menu-large menu_index_link"><a href="/apple" title="1">1</a></li>

他们有相同的html格式,但我只需要第二个,我应该怎么做呢?也许用标题来区分?

代码:

for item in soup.find_all(attrs={'class':'dropdown menu-large menu_index_link'}):
    for link in item.find_all('a'):
        href=link.get('href')   #print out both of the link

问题解决如下:

for item in soup.find_all(attrs={'class':'dropdown menu-large menu_index_link'}):
        for link in item.find_all('a', {'title': "1"}):
            href=link.get('href')   #print out the link I want

1 个答案:

答案 0 :(得分:3)

我发现title标记的a属性不同。您可以通过在find_all中添加标题过滤器来选择所需的项目。

item.find_all('a', {'title': "1"})