网站抓取实时新闻报道

时间:2019-12-09 20:59:37

标签: javascript python selenium web-scraping

我正在尝试从页面https://www.galaxus.ch/de/s2/sector/haushalt-2抓取某种实时新闻报道。 (请参见网页右侧的屏幕截图)Ticker + source code, which is updating permanently

我尝试的工作流程是:

  1. 启动Selenium Webdriver
  2. “获取”网页
  3. 获取源代码并创建一个beautifulsoup对象
  4. 基于标签和类名的beautifulsoup中的“ find_all”

这很好用,但是只有静态/一次,即在浏览器的html-inspector中,我可以看到永久弹出新行(= news)并消失旧行,但是我无法弹出新行与我的代码一致。

那我该如何像“听一个流然后写下来,听到的声音”那样刮擦这个股票代码?

感谢您的帮助

我的代码是:

options = webdriver.ChromeOptions()
options.add_argument("-headless")
options.add_argument("-no-sandbox")
options.add_argument("-disable-dev-shm-usage")

url="https://www.galaxus.ch/de/s2/sector/haushalt-2"

driver = webdriver.Chrome("chromedriver",options=options)
driver.get(url)
selenium_soup=BeautifulSoup(driver.page_source,"html.parser")
selenium_soup.find_all(name="div",class_="ZZr6 ZZr8")

0 个答案:

没有答案