新浪网新闻网

时间:2017-03-11 08:05:30

标签: r xpath rvest

我正在尝试使用RVest进行网络抓取:to be not directly related with PHP Markdown Lib

问题1:

我想获取位于底部的下一页的链接

SINA

当我使用Chrome检查时:

Next Page Button

rm(list=ls())
library(rvest)

# Search Sina HSBC
hsbc_sina_search = read_html('http://www.sina.com.cn/mid/search.shtml?range=all&c=news&q=%E6%B1%87%E4%B8%B0%E9%93%B6%E8%A1%8C&from=home&ie=utf-8', encoding = 'UTF-8')

#Next Page
hsbc_sina_search %>% html_nodes(xpath = "//table/tbody/tr/td/div[@class='pagebox']/a[10]")

它返回:

{xml_nodeset (0)}

我的xpath有问题吗?

  

“//表/ tbody的/ TR / TD /格[@类= 'pagebox'] / A [10]”

我想要实现的目标是进入下一页。如果rvest不能这样做,我该如何去做呢?

问题2:

对于相同的Inspect,我想获得链接的hrefs webpage

HREF

# Link In
hsbc_sina_search %>%
  html_nodes(xpath = "//div[@class='box-result clearfix' and @data-sudaclick = 'blk_result_index_9']/div/h2/a")

我也没有得到任何结果

{xml_nodeset (0)}

0 个答案:

没有答案