Question

我一直在尝试从 Doordash 抓取动态内容（餐厅名称、评级、餐厅类型），而且我要抓取的不仅仅是一个网站，而是多个网站，大约 100 - 1000 页Doordash 上的单个域。

我有一个“单次抓取”可以工作，但是，当我使用下面的代码时，它给了我一个很长的错误

def ScrapeDoorDash(df):
for i in df:
    url = df[i]
    print(url)
    driver = webdriver.Chrome(ChromeDriverManager().install())
    driver.get(url)
    restaurantname = driver.find_element_by_xpath('//*[@id="root"]/div/div[1]/div[2]/div/div[1]/header/div[2]/h1').text
    rating = driver.find_element_by_xpath('//*[@id="root"]/div/div[1]/div[2]/div/div[1]/header/div[2]/div[1]/div[3]/div/span[1]').text
    #estauranttype = driver.find_element_by_xpath('//*[@id="root"]/div/div[1]/div[2]/div/div[1]/header/div[2]/div[1]/div[1]/span').text
    #Store into / print Out
    print (restaurantname, rating, restauranttype)

XPath 已经是正确的，但我注意到 Selenium 每次都会打开 chrome，让它在抓取内容之前完成加载。在我上面提供的代码中，我注意到在第一页加载完成之前错误已经弹出。

有没有办法实现一些代码来“暂停 for 循环”，让它先加载和抓取，然后再移动到“URL 数据帧”中的下一项？

请使用以下内容创建 URL 数据框

url = ["https://www.doordash.com/store/popeyes-toronto-254846/en-CA", "https://www.doordash.com/store/sunset-grill-toronto-211003/en-CA"]

url = pd.DataFrame(data) 网址

错误信息如下（更长）。它说没有这样的元素，但是，当页面加载完成后，我单独尝试了它，找到了这些元素并抓取了正确的内容。只是当我尝试抓取多个页面时，它给了我一个错误。

任何帮助将不胜感激！

Answer 1

您可以使用 time 模块来暂停脚本。

import time

time.sleep(2)

把它放在请求和景观行之间。

脚本将暂停您在括号中的时间，以秒为单位。在本例中为 2 秒。

做一些测试，并用最短的时间让脚本工作。

Answer 2

正如 Fabix 所说，time 模块将允许您在从网页中检索元素之前让代码休眠。

此外，为了防止 chrome 驱动程序为每个 url 打开一个新实例，请在循环外打开浏览器。

import time

def ScrapeDoorDash(urls):
    with webdriver.Chrome(ChromeDriverManager().install()) as driver:
        for url in urls:
            print(url)
            driver.get(url)
            time.sleep(3)
            restaurantname = driver.find_element_by_xpath('//*[@id="root"]/div/div[1]/div[2]/div/div[1]/header/div[2]/h1').text
            rating = driver.find_element_by_xpath('//*[@id="root"]/div/div[1]/div[2]/div/div[1]/header/div[2]/div[1]/div[3]/div/span[1]').text
            restauranttype = driver.find_element_by_xpath('//*[@id="root"]/div/div[1]/div[2]/div/div[1]/header/div[2]/div[1]/div[1]/span').text
            #Store into / print Out
            print (restaurantname, rating, restauranttype)

通过使用 with webdriver.Chrome(ChromeDriverManager().install()) as driver:，驱动程序连接将在您退出语句后关闭。

Answer 3

我建议您使用 waits。它可能比 time.sleep 更好，因为你不必自己找到完美的时间，它更可靠，但它使代码更大（尽管你可以为其创建函数）：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

xpath = "..."
wait_time = 10
# driver will try to find element by xpath for 10 seconds
# if could not find, will raise TimeoutException

interval = 0.1 # time between attempts to search xpath. 0.5 seconds by default

# returns found element
elem = WebDriverWait(driver, wait_time , interval ).until(EC.presence_of_element_located((By.XPATH, xpath)))
some = elem.text

对于每次打开浏览器，请参阅 ZacLanghorne 的回答

使用 Selenium 抓取动态内容（多页）-Python

3 个答案: