创建一个序列以使用R从url抓取文本

时间:2019-10-20 21:28:02

标签: r web-scraping

我正在尝试创建一些代码,以删除一个赛季中主持每场NBA比赛的官员的姓名。我要从中抓取的所有url都采用类似的格式,因此我需要一些代码来标识格式和reads官方名称。非常感谢您的帮助!

您将看到:

  1. 下面的# extract officials的第一版读取标题inactiveofficialsattendance等。

  2. # extract officials的第二个版本在每个上述标题之后读取文本。

  3. 我需要一些代码来识别多种网址上的这种格式/样式,并每次都读取官员的姓名。

Scott FosterRon GarretsonDedric Taylor在此特定的url示例中:

# get webpage
url = paste0("https://www.basketball-reference.com/boxscores/", "201810160BOS", ".html")
webpage = read_html(url)

# extract officials
data = webpage %>% 
    html_nodes(paste("body > div > div > div > div > strong")) %>%
    html_text()

# extract officials
data = webpage %>% 
    html_nodes(paste("body > div > div > div > div > a")) %>%
    html_text()

1 个答案:

答案 0 :(得分:0)

我对R自己了解不多,我敢肯定有更好的方法,但这也许可以作为一个开始:

-104.65  -10     5   65536.00    0.00    0.00    0.00    
-102.74  -4  1   65536.00    0.00    0.00    0.00    
-102.19  -2  0   65536.00    0.00    0.00    0.00    
-102.09  0   0   65536.00    0.00    0.00    0.00    
-101.75  0   0   65536.00    0.00    0.00    0.00    
-101.61  0   -1  65536.00    0.00    0.00    0.00    
-101.62  0   -1  65536.00    0.00    0.00    0.00    
-101.68  0   -1  65536.00    0.00    0.00    0.00    
-101.76  0   -1  65536.00    0.00    0.00    0.00    
-102.02  0   -1  65536.00    0.00    0.00    0.00    
-102.20  0   -1  65536.00    0.00    0.00    0.00    
-102.33  0   -1  65536.00    0.00    0.00    0.00    
-102.43  0   -1  65536.00    0.00    0.00    0.00    
-102.57  0   -1  65536.00    0.00    0.00    0.00    
-102.77  0   -1  65536.00    0.00    0.00    0.00    
-102.90  0   -1  65536.00    0.00    0.00    0.00    
-102.68  0   -1  65536.00    0.00    0.00    0.00    
-102.48  0   -1  65536.00    0.00    0.00    0.00    
-102.26  0   -1  65536.00    0.00    0.00    0.00    
-102.01  0   -1  65536.00    0.00    0.00    0.00    
-101.83  0   -1  65536.00    0.00    0.00    0.00    
-102.15  0   -1  65536.00    0.00    0.00    0.00    
-102.34  0   -1  65536.00    0.00    0.00    0.00    
-102.17  0   -1  65536.00    0.00    0.00    0.00    
-101.89  0   -1  65536.00    0.00    0.00    0.00    
-101.74  0   -1  65536.00    0.00    0.00    0.00    
-101.88  0   -1  65536.00    0.00    0.00    0.00    
-101.95  0   -1  65536.00    0.00    0.00    0.00    
-102.01  0   -1  65536.00    0.00    0.00    0.00    
-102.05  0   -1  65536.00    0.00    0.00    0.00    
-102.06  0   -1  65536.00    0.00    0.00    0.00    
-102.00  0   -1  65536.00    0.00    0.00    0.00    
-101.96  0   -1  65536.00    0.00    0.00    0.00    
-102.06  0   -1  65536.00    0.00    0.00    0.00    
-102.14  0   -1  65536.00    0.00    0.00    0.00    
-102.37  0   -1  65536.00    0.00    0.00    0.00    
-102.81  0   -1  65536.00    0.00    0.00    0.00   

这是我从上面的代码中得到的结果:

  

参考   [1]“斯科特·福斯特”,“罗恩·加勒森”,“德里克·泰勒”