Question

我下面有一个脚本，可用于简单的html抓取。对于此特定网站，下面没有任何返回。对R和selectorgadget使用html的新手，但是我还有其他可以工作的网站。我想知道为什么这个看不到元素。下图在突出显示的红色框中显示了路径，我想知道它是否由于在隐藏此框的花式框前面的＃号而引起。任何提示和语言更正都会有所帮助，因为我仍在学习如何抓取html。

library(rvest)
library(dplyr)
library(tm)
library(stringi)
library(readr)

url <- read_html('https://www.draftkings.com/draft/contest/84207356')

rot <- url %>%
  html_nodes('..prize-payouts td+ td') %>%
  html_text()

roster <- data.frame(ROT = rot)

Answer 1

网站正在使用javascript渲染页面。一种解决方案是将数据下载为JSON。如果您在Web浏览器上的开发人员工具下检查来自网络的文件。

此文件应提供您要查找的信息：

try{
   //your code
}catch(Exception ex){
  ex.printStackTrace();
}

请务必遵守本网站上的服务条款。

使用R和selectorgadget进行HTML抓取

1 个答案: