我正在尝试使用RVest进行网络抓取:to be not directly related with PHP Markdown Lib
问题1:
我想获取位于底部的下一页的链接
当我使用Chrome检查时:
rm(list=ls())
library(rvest)
# Search Sina HSBC
hsbc_sina_search = read_html('http://www.sina.com.cn/mid/search.shtml?range=all&c=news&q=%E6%B1%87%E4%B8%B0%E9%93%B6%E8%A1%8C&from=home&ie=utf-8', encoding = 'UTF-8')
#Next Page
hsbc_sina_search %>% html_nodes(xpath = "//table/tbody/tr/td/div[@class='pagebox']/a[10]")
它返回:
{xml_nodeset (0)}
我的xpath有问题吗?
“//表/ tbody的/ TR / TD /格[@类= 'pagebox'] / A [10]”
我想要实现的目标是进入下一页。如果rvest不能这样做,我该如何去做呢?
问题2:
对于相同的,我想获得链接的hrefs webpage
# Link In
hsbc_sina_search %>%
html_nodes(xpath = "//div[@class='box-result clearfix' and @data-sudaclick = 'blk_result_index_9']/div/h2/a")
我也没有得到任何结果
{xml_nodeset (0)}