我正在尝试从以下网站抓取一个文本项:
http://www.fangraphs.com/statss.aspx?playerid=639&position=3B
我要抓的项目是" 3B"从那以后"位置:"靠近网页顶部。我在下面的尝试只创建一个空数据集,即:
character(0)
感谢任何帮助。谢谢。
library(rvest)
url="http://www.fangraphs.com/statss.aspx?playerid=10155&position=3B"
ret <- url %>%
read_html() %>%
html_nodes(xpath='//*[@id="content"]/table[1]/tbody/tr/td[1]/table/tbody/tr[1]/td/div[2]/text()[4]') %>%
html_text()
ret
答案 0 :(得分:1)
使用此xpath
://*[@id="content"]/table[1]/tr/td[1]/table/tr[1]/td/div[2]/text()[5]
它与你的基本相同,只是它排除了tbody
标签 - 不确定原因,无法找到记录 - 并将最后一个索引更改为5.
playerid=639
的结果:" 3B"
(在最后添加%>% trimws()
以获取"3B"
)