使用 Selenium 进行网页抓取“简单站点”挂起

时间:2021-07-05 00:49:49

标签: python selenium web-scraping

我正在抓取一个看似简单的网站,它不需要登录,也不需要与元素进行任何交互。但是,当我使用 Selenium/requests/etc. 时,代码就挂了。我尝试将标题与我使用开发人员工具发现的内容进行匹配,但无济于事。我想知道是否有人可以为我指明正确的方向。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.proxy import Proxy
from fake_useragent import UserAgent

URL = 'https://www.cmegroup.com/CmeWS/mvc/xsltTransformer.do?xlstDoc=/XSLT/md/blocks-records.xsl&url=/da/BlockTradeQuotes/V1/Block/BlockTrades?exchange=XCBT,XCME,XCEC,DUMX,XNYM&foi=FUT,OPT,SPD&assetClassId=8&tradeDate=06212021&sortCol=time&sortBy=desc&_=1624332329760'

agent = UserAgent()
userAgent = agent.random

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument(f'--user-agent={userAgent}')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',chrome_options=chrome_options)
driver.get(URL)

建议使用选项参数让 chromedriver 在 Google Colab 上运行。我在没有它们的情况下在本地尝试过,结果相同。

0 个答案:

没有答案
相关问题