我正试图从中国豆瓣中抓取顶级电影的名称,请参见https://movie.douban.com/top250?format=text 网络资源看起来像这样:
问题是我尝试过
library(XML)
library(RCurl)
url <-'http://movie.douban.com/top250?format=text'
movie <- htmlParse(getURL(url))
#Both
nodes <- getNodeSet(movie,"//span[@class='title']")
#and
nodes <- getNodeSet(movie,"//*[@class='title']")
返回“ 0列表”。
我检查XPath语法时没有发现任何错误。这非常令人沮丧。请有人帮助我解决此问题。我将非常感谢!