我正在尝试创建一些代码,以删除一个赛季中主持每场NBA比赛的官员的姓名。我要从中抓取的所有url都采用类似的格式,因此我需要一些代码来标识格式和reads
官方名称。非常感谢您的帮助!
您将看到:
下面的# extract officials
的第一版读取标题inactive
,officials
,attendance
等。
# extract officials
的第二个版本在每个上述标题之后读取文本。
我需要一些代码来识别多种网址上的这种格式/样式,并每次都读取官员的姓名。
Scott Foster
,Ron Garretson
,Dedric Taylor
在此特定的url示例中:
# get webpage
url = paste0("https://www.basketball-reference.com/boxscores/", "201810160BOS", ".html")
webpage = read_html(url)
# extract officials
data = webpage %>%
html_nodes(paste("body > div > div > div > div > strong")) %>%
html_text()
# extract officials
data = webpage %>%
html_nodes(paste("body > div > div > div > div > a")) %>%
html_text()
答案 0 :(得分:0)
我对R自己了解不多,我敢肯定有更好的方法,但这也许可以作为一个开始:
-104.65 -10 5 65536.00 0.00 0.00 0.00
-102.74 -4 1 65536.00 0.00 0.00 0.00
-102.19 -2 0 65536.00 0.00 0.00 0.00
-102.09 0 0 65536.00 0.00 0.00 0.00
-101.75 0 0 65536.00 0.00 0.00 0.00
-101.61 0 -1 65536.00 0.00 0.00 0.00
-101.62 0 -1 65536.00 0.00 0.00 0.00
-101.68 0 -1 65536.00 0.00 0.00 0.00
-101.76 0 -1 65536.00 0.00 0.00 0.00
-102.02 0 -1 65536.00 0.00 0.00 0.00
-102.20 0 -1 65536.00 0.00 0.00 0.00
-102.33 0 -1 65536.00 0.00 0.00 0.00
-102.43 0 -1 65536.00 0.00 0.00 0.00
-102.57 0 -1 65536.00 0.00 0.00 0.00
-102.77 0 -1 65536.00 0.00 0.00 0.00
-102.90 0 -1 65536.00 0.00 0.00 0.00
-102.68 0 -1 65536.00 0.00 0.00 0.00
-102.48 0 -1 65536.00 0.00 0.00 0.00
-102.26 0 -1 65536.00 0.00 0.00 0.00
-102.01 0 -1 65536.00 0.00 0.00 0.00
-101.83 0 -1 65536.00 0.00 0.00 0.00
-102.15 0 -1 65536.00 0.00 0.00 0.00
-102.34 0 -1 65536.00 0.00 0.00 0.00
-102.17 0 -1 65536.00 0.00 0.00 0.00
-101.89 0 -1 65536.00 0.00 0.00 0.00
-101.74 0 -1 65536.00 0.00 0.00 0.00
-101.88 0 -1 65536.00 0.00 0.00 0.00
-101.95 0 -1 65536.00 0.00 0.00 0.00
-102.01 0 -1 65536.00 0.00 0.00 0.00
-102.05 0 -1 65536.00 0.00 0.00 0.00
-102.06 0 -1 65536.00 0.00 0.00 0.00
-102.00 0 -1 65536.00 0.00 0.00 0.00
-101.96 0 -1 65536.00 0.00 0.00 0.00
-102.06 0 -1 65536.00 0.00 0.00 0.00
-102.14 0 -1 65536.00 0.00 0.00 0.00
-102.37 0 -1 65536.00 0.00 0.00 0.00
-102.81 0 -1 65536.00 0.00 0.00 0.00
这是我从上面的代码中得到的结果:
参考 [1]“斯科特·福斯特”,“罗恩·加勒森”,“德里克·泰勒”