我正在尝试通过XML包使用R进行一些刮擦,但是在尝试提取给定的Xpath时只能得到空的文档和向量(如本教程中所述https://www.youtube.com/watch?v=tuNuxCjBU3U进行了提取)。 我尝试使用rvest,但是Chrome上的选择器工具无法选择某些元素(或对其进行分组并造成混乱)。
从其他帖子中,我了解到问题出在名称空间,但是我不知道如何设置名称空间。
以下是我目前的工作
url<-"https://www.imdb.com/chart/top"
doc1<-htmlParse(url)
rating<-getNodeSet(doc1,'//*[@id="main"]/div/span/div/div/div[3]/table/tbody/tr/td[3]/strong')
鉴于xpath:// * [@@ =“ =” main“] / div / span / div / div / div / div [3] / table / tbody / tr [3] / td [3] / strong [3]在“ tr”之后可以获取所有相同的元素,而不仅仅是单个数据点。
找到命名空间并进行设置的合适方法是什么? 非常感谢! 山姆