用rvest刮文本

时间:2017-02-08 21:08:49

标签: r web web-scraping rvest

我正在尝试从以下网站抓取一个文本项: http://www.fangraphs.com/statss.aspx?playerid=639&position=3B
我要抓的项目是" 3B"从那以后"位置:"靠近网页顶部。我在下面的尝试只创建一个空数据集,即:
character(0)

感谢任何帮助。谢谢。

library(rvest)
url="http://www.fangraphs.com/statss.aspx?playerid=10155&position=3B"       
ret <- url %>%
    read_html() %>%
    html_nodes(xpath='//*[@id="content"]/table[1]/tbody/tr/td[1]/table/tbody/tr[1]/td/div[2]/text()[4]') %>%
    html_text()

ret

1 个答案:

答案 0 :(得分:1)

使用此xpath//*[@id="content"]/table[1]/tr/td[1]/table/tr[1]/td/div[2]/text()[5] 它与你的基本相同,只是它排除了tbody标签 - 不确定原因,无法找到记录 - 并将最后一个索引更改为5.

playerid=639的结果:" 3B"

(在最后添加%>% trimws()以获取"3B"