我有一个html文件,其中包含数千个具有以下结构的条目。
<li class="li1">
<div class="div1">
<div class="div2">
<div class="div3">
<a class="a1">
<strong class="strong1">name</strong>
<div class="div4">2ndname</div>
</a>
<small class="small1">
<a href="URL" class="a2" title="INFO I WANT!">
<div class="div5">time</div>
</a>
</small>
</div>
<p class="p1">Main info</p>
</div>
</div>
</div>
</li>
我正在使用R来使用CSS包提取信息。这是现在直到现在的作用。
doc <- htmlParse("myfile")
name <- cssApply(doc, ".li1>.div1>.div2>.div3>.a1>.strong1", cssCharacter)
2ndname <- cssApply(doc, ".li1>.div1>.div2>.div3>.a1>.strong1", cssCharacter)
我想获得标题的标题,所以我直接使用XML。我试过了:
uh<-xpathApply(doc, "//li[@class='li1']/div[@class='div1']/div[@class='div2']/div[@class='div3']/small[@class='small1']/a[@class='a2']", xmlGetAttr, "title")
但我只得到NULL。一些帮助将是真正的apreciated。我读过attribute value extraction in XML using R和其他几个,但我找不到我做错了什么。 再次感谢!
答案 0 :(得分:0)
实际上我误解了文件中数据的结构。这里编写的例子与解析器一起使用但实际数据没有。我错过了一个级别。