您好我正在使用R做一些基本的网页抓取,我很乐意解析xml文件并使用xpath查询它们。但是,我很难解析一个完整的html页面,并试图提取xml进入我的舒适区。例如:
parsedhtml <- htmlParse("http://www.w3schools.com/XPath/xpath_examples.asp")
解析html。我正在使用它,因为xmlParse仅适用于.xml文件。我知道通过使用getNodeSet,我可以隔离解析后的html中的特定节点。所以我试图通过尝试:
来提取“示例XML文档”部分下的嵌入式xml文档getNodeSet(parsedhtml, "//div[@class = 'code notranslate']")
我在正确的节点中获取数据,但它不是标准的xml,我无法使用xmlParse解析它。我的问题是如何使用getNodeSet的结果来提取xml?
非常感谢