我正尝试在此链接上抓取文章的内容:https://onlinelibrary.wiley.com/doi/full/10.1111/jvim.15224
我已经使用Selenium加载了页面(PhantomJS和Firefox),但是我似乎无法获得article标签。
此行用于等待页面加载:
element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, "article-section__sub-title section1")))
或者,我也试图等待article标签加载。
但是,驱动程序会在几秒钟后继续运行,但是每当我检查等待后得到的html时,唯一出现的是'head'和'body'标签-只是标签,没有它们的内容。 / p>
有什么想法让页面加载并刮掉文章标签时我做错了吗?
答案 0 :(得分:1)
要刮掉文章标签而不是使用...
,您需要使用 save()
方法,并且可以使用以下解决方案:
代码块:
x <- as.name(x)
save(x, file = "nnfi.bin")
控制台输出:
presence_of_element_located()