无法加载页面以抓取文章标签

时间:2018-08-07 06:22:20

标签: python selenium selenium-webdriver screen-scraping article

我正尝试在此链接上抓取文章的内容:https://onlinelibrary.wiley.com/doi/full/10.1111/jvim.15224

我已经使用Selenium加载了页面(PhantomJS和Firefox),但是我似乎无法获得article标签。

此行用于等待页面加载:

element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, "article-section__sub-title section1")))

或者,我也试图等待article标签加载。

但是,驱动程序会在几秒钟后继续运行,但是每当我检查等待后得到的html时,唯一出现的是'head'和'body'标签-只是标签,没有它们的内容。 / p>

有什么想法让页面加载并刮掉文章标签时我做错了吗?

1 个答案:

答案 0 :(得分:1)

要刮掉文章标签而不是使用...,您需要使用 save() 方法,并且可以使用以下解决方案:

  • 代码块:

    x <- as.name(x)
    save(x, file = "nnfi.bin")
    
  • 控制台输出:

    presence_of_element_located()