Question

我需要连续获取下一个按钮<1 2 3 ... 5>上的数据，但是源中没有提供href链接，也有省略号。有什么想法吗？这是我的代码

{{1}}

请帮助我谢谢你

Answer 1

此分页似乎使用了对API的附加请求。因此，有两种方法：

使用Splash / Selenium通过QHarr模式呈现页面；
对API进行相同的调用。检查开发人员工具，您会发现POST请求https://www.forever21.com/us/shop/Catalog/GetProducts将使用所有适当的参数（它们太长，因此我不会在此处发布完整列表）。

Answer 2

网址会更改，因此您可以在url中指定页码和每页结果，例如

https://www.forever21.com/uk/shop/catalog/category/f21/sale/#pageno=2&pageSize=120&filter=price:0,250

正如@vezunchik和OP反馈所提到的，此方法需要使用硒/飞溅来允许js在页面上运行。如果您沿着那条路线走，则可以单击下一个（.p_next）直到获得结束页，因为很容易从文档中获取最后一个页码（.dot + .pageno）。

我很感谢您正在努力尝试。

用硒演示这种想法，以防万一。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

url_loop = 'https://www.forever21.com/uk/shop/catalog/category/f21/sale/#pageno={}&pageSize=120&filter=price:0,250'
url = 'https://www.forever21.com/uk/shop/catalog/category/f21/sale'
d = webdriver.Chrome()
d.get(url)

d.find_element_by_css_selector('[onclick="fnAcceptCookieUse()"]').click() #get rid of cookies
items =  WebDriverWait(d,10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#products .p_item")))
d.find_element_by_css_selector('.selectedpagesize').click()
d.find_elements_by_css_selector('.pagesize')[-1].click() #set page result count to 120
last_page = int(d.find_element_by_css_selector('.dot + .pageno').text) #get last page

if last_page > 1:
    for page in range(2, last_page + 1):
        url = url_loop.format(page)
        d.get(url)
        try:
            d.find_element_by_css_selector('[type=reset]').click() #reject offer
        except:
            pass
        # do something with page
        break #delete later

如何使用Scrapy使用带有省略号的下一个按钮来抓取数据

2 个答案: