使用getNodeSet从html页面中刮取xml

时间:2014-02-18 13:16:58

标签: r xpath xml-parsing html-parsing web-scraping

您好我正在使用R做一些基本的网页抓取,我很乐意解析xml文件并使用xpath查询它们。但是,我很难解析一个完整的html页面,并试图提取xml进入我的舒适区。例如:

parsedhtml <- htmlParse("http://www.w3schools.com/XPath/xpath_examples.asp")

解析html。我正在使用它,因为xmlParse仅适用于.xml文件。我知道通过使用getNodeSet,我可以隔离解析后的html中的特定节点。所以我试图通过尝试:

来提取“示例XML文档”部分下的嵌入式xml文档
getNodeSet(parsedhtml, "//div[@class = 'code notranslate']")

我在正确的节点中获取数据,但它不是标准的xml,我无法使用xmlParse解析它。我的问题是如何使用getNodeSet的结果来提取xml?

非常感谢

0 个答案:

没有答案