Web搜寻与R问题

时间:2018-09-20 05:08:34

标签: r xml web-scraping

我目前在R编程中使用XML包,而POST和xpathSApply函数用于进行Web爬网。当有两个以上满足搜索条件的值时,我只想取第一个值。

在图像中,我只想提取位于<li></li>之间的“짜증나”部分。目前,我正在使用以下命令

tdReplace = xpathSApply(html, "//td[@class='tdReplace']/ul/li[2]/a", xmlValue)

没有成功。我应该如何解决这个问题?

enter image description here

1 个答案:

答案 0 :(得分:2)

请考虑改用rvest。它包含一个函数html_node(),该函数返回匹配节点的第一个实例。

在看不到HTML的情况下很难进行测试,但要从URL my_url解析HTML,类似这样的方法应该起作用:

library(rvest)

my_url %>%
  read_html() %>%
  html_node("td.tdReplace ul li a") %>%
  html_text()