Question

我正在尝试通过XML包使用R进行一些刮擦，但是在尝试提取给定的Xpath时只能得到空的文档和向量（如本教程中所述https://www.youtube.com/watch?v=tuNuxCjBU3U进行了提取）。我尝试使用rvest，但是Chrome上的选择器工具无法选择某些元素（或对其进行分组并造成混乱）。

从其他帖子中，我了解到问题出在名称空间，但是我不知道如何设置名称空间。

以下是我目前的工作

url<-"https://www.imdb.com/chart/top"
doc1<-htmlParse(url)
rating<-getNodeSet(doc1,'//*[@id="main"]/div/span/div/div/div[3]/table/tbody/tr/td[3]/strong')

鉴于xpath：// * [@@ =“ =” main“] / div / span / div / div / div / div [3] / table / tbody / tr [3] / td [3] / strong [3]在“ tr”之后可以获取所有相同的元素，而不仅仅是单个数据点。

找到命名空间并进行设置的合适方法是什么？非常感谢！山姆

R XML包，getNodeSet的名称空间

0 个答案: