在R中解析XML并在字符串中连接结果

时间:2014-05-05 16:52:01

标签: xml r xml-parsing

我在通过R

执行非常简单的xml文件解析时遇到困难

以下是我对解析感兴趣的xml的两个观察结果(15_5 / 00236_CAMERA,15_5 / 00235_CAMERA):

    <p id="15_5/00236_CAMERA"><span class="id">15_5/00236_CAMERA</span><span class="tipologia">INTERROGAZIONE A RISPOSTA IN COMMISSIONE</span><span class="legRomano">XV</span><span class="primoFirmatario">ZUCCHI ANGELO ALBERTO</span><span class="descrittore"><label>SERRE E VIVAI</label><label>CONTRIBUTI PUBBLICI</label><label>FIORI E FLORICOLTURA</label><label>ENERGIA GEOTERMICA</label><label>GRANDINE GELATE E NEVE</label><label>PARTECIPAZIONI STATALI</label></span><span class="ramo">CAMERA</span><span class="dataPresentazione">27/09/2006</span><span class="numero">5/00236</span></p>
<p id="15_5/00235_CAMERA"><span class="id">15_5/00235_CAMERA</span><span class="tipologia">INTERROGAZIONE A RISPOSTA IN COMMISSIONE</span><span class="legRomano">XV</span><span class="primoFirmatario">MARTINELLO LEONARDO</span><span class="descrittore"><label>DENOMINAZIONE DI ORIGINE DI PRODOTTI</label><label>ORTAGGI E VERDURE</label><label>LEGUMI</label></span><span class="ramo">CAMERA</span><span class="dataPresentazione">27/09/2006</span><span class="numero">5/00235</span></p>

我想创建一个向量,每个观察一个元素,包含字符串中连接的“descrittore”类中的所有标签,用分号分隔每个标签

[1]“SERRE E VIVAI; CONTRIBUTI PUBBLICI; FIORI E FLORICOLTURA; ENERGIA GEOTERMICA; GRANDINE GELATE E NEVE; PARTECIPAZIONI STATALI”

[2]“DENOMINAZIONE DI ORIGINE DI PRODOTTI; ORTAGGI E VERDURE; LEGUMI”

SOLUTION:

这是解决方案(感谢Duncan Temple Lang的帮助)

library(xml)
MY_PARSED_FILE <- htmlParse(file)
descrittore <- sapply(xpathSApply(MY_PARSED_FILE, "//span[@class='descrittore']", function(node) xmlSApply(node, xmlValue)), function(x) paste(x, sep="", collapse=";"))

0 个答案:

没有答案