Question

尝试了许多不同的链接，但每次我得到相同的结果：第一个链接总是最后再次结束。

import requests
from lxml import html
Unique=[]
url="https://www.yellowpages.com/search?search_terms=coffee&geo_location_terms=Los+Angeles%2C+CA"
def DupRemoval(Address):
    MainLink="https://www.yellowpages.com"
    response = requests.get(Address)
    Unique.append(Address)
    tree=html.fromstring(response.text)
    Pagination_link=tree.xpath("//div[@class='pagination']//a/@href")
    for Nextpage in Pagination_link:
        Blink=MainLink+Nextpage
        if Blink not in Unique:
            print(Blink)

DupRemoval(url)

制作链接：

Answer 1

重复的链接是＆＃34;下一步＆＃34;链接按钮，它是分页块中的最后一个。此外，如果您进一步前进到下一页，您还将获得＆＃34; Previous＆＃34;也在那里链接。

过滤掉它的一种快捷方法是获取没有a属性的所有class元素：

//div[@class='pagination']//a[not(@class)]/@href

无法摆脱重复的链接

1 个答案: