Question

我目前在R编程中使用XML包，而POST和xpathSApply函数用于进行Web爬网。当有两个以上满足搜索条件的值时，我只想取第一个值。

在图像中，我只想提取位于<li>和</li>之间的“짜증나”部分。目前，我正在使用以下命令

tdReplace = xpathSApply(html, "//td[@class='tdReplace']/ul/li[2]/a", xmlValue)

没有成功。我应该如何解决这个问题？

Answer 1

请考虑改用rvest。它包含一个函数html_node()，该函数返回匹配节点的第一个实例。

在看不到HTML的情况下很难进行测试，但要从URL my_url解析HTML，类似这样的方法应该起作用：

library(rvest)

my_url %>%
  read_html() %>%
  html_node("td.tdReplace ul li a") %>%
  html_text()