<DOC NUMBER=1>
<DOCFULL> -->
<br><div class="c0">
<p class="c1"><span class="c2">Dokument 1 von 3</span></p>
</div>
<br><div class="c0">
<br><p class="c1"><span class="c2">Associated Press Financial Wire</span></p>
</div>
<br><div class="c3">
<p class="c1"><span class="c2">April 25, 2012 Wednesday 9:18 PM GMT </span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c6">Apple CEO Tim Cook emerges from Steve Jobs' shadow</span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c7">BYLINE: </span><span class="c2">By PETER SVENSSON, AP Technology Writer</span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c7">SECTION: </span><span class="c2">BUSINESS NEWS</span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c7">LENGTH: </span><span class="c2">794 words</span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c7">DATELINE: </span><span class="c2">NEW YORK </span></p>
</div>
<br><div class="c4">
<p class="c8"><span class="c2"> MAIN TEXT 1</span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c7">LOAD-DATE: </span><span class="c2">April 26, 2012</span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c7">LANGUAGE: </span><span class="c2">ENGLISH</span></p>
</div>
<br><div class="c4">
<p class="c5"><span class="c7">PUBLICATION-TYPE: </span><span class="c2">Newswire</span></p>
</div>
<br><div class="c0">
<br><p class="c1"><span class="c2">Copyright 2012 Associated Press<br>All Rights Reserved</span></p>
</div>
<!-- Hide XML section from browser
</DOCFULL>
</DOC> -->
我是xpath的新手,我想将它与R(Duncan Lang的xml包)结合使用,以查询我从LexisNexis收到的html文档。该文档包含多篇新闻文章,每篇文章都以<DOC NUMBER=1> <DOCFULL>
标签为界。我想为每个文件提取一些信息,例如提取SECTION信息,我到目前为止:
doc <- htmlParse("hmtldoc.HTML")
xpathSApply(doc,"//span[text()='SECTION: ']/..", xmlValue)
给了我:
[1] "SECTION: BUSINESS NEWS" "SECTION: BUSINESS NEWS" "SECTION: BUSINESS NEWS"
这是我可以使用的输出。主要问题是并非每篇文章都有SECTION信息。我需要知道的是哪篇文章提供了这些信息,哪些文章没有,最好是返回NA或空列表元素,以便我自己推断出这些信息。
与此问题相关:我试图提出一个解决方案,我首先选择DOC或DOCFULL节点,然后从那里开始,例如:
xpathSApply(doc,"//DOCFULL/*/span[text()='SECTION: ']/..", xmlValue)
我认为这应该返回与上面相同的文本,但事实并非如此。无论如何,我仍然对这门语言很陌生,并感谢任何帮助。
答案 0 :(得分:1)
由于DOCFULL
和span
之间存在多个'级别'的后代元素,因此您需要
模糊
//DOCFULL//*/span[text()='SECTION: ']/..
或者 具体关于等级(div和p)
//DOCFULL/*/*/span[text()='SECTION: ']/..
答案 1 :(得分:0)
根据提供的文件,你可以使用它:
//*[span='SECTION: ']
您无需指定查找带有“SECTION:”文本的span节点,然后选择它的父节点,您只需选择具有该文本的'span'子节点的任何节点。
如果您需要它是DOCFULL
元素的后代,请使用
//DOCFULL//*[span='SECTION: ']