Question

我正在尝试从以下网站抓取一个文本项： http://www.fangraphs.com/statss.aspx?playerid=639&position=3B
我要抓的项目是＆＃34; 3B＆＃34;从那以后＆＃34;位置：＆＃34;靠近网页顶部。我在下面的尝试只创建一个空数据集，即：
character(0)

感谢任何帮助。谢谢。

library(rvest)
url="http://www.fangraphs.com/statss.aspx?playerid=10155&position=3B"       
ret <- url %>%
    read_html() %>%
    html_nodes(xpath='//*[@id="content"]/table[1]/tbody/tr/td[1]/table/tbody/tr[1]/td/div[2]/text()[4]') %>%
    html_text()

ret

Answer 1

使用此xpath：//*[@id="content"]/table[1]/tr/td[1]/table/tr[1]/td/div[2]/text()[5] 它与你的基本相同，只是它排除了tbody标签 - 不确定原因，无法找到记录 - 并将最后一个索引更改为5.

playerid=639的结果：" 3B"

（在最后添加%>% trimws()以获取"3B"）

用rvest刮文本

1 个答案: