R:XML:XPATH:从html标签获取标题

时间:2015-01-22 11:44:09

标签: xml r xpath

我有一个html文件,其中包含数千个具有以下结构的条目。

<li class="li1">
  <div class="div1">
    <div class="div2">    
      <div class="div3">
        <a class="a1">
            <strong class="strong1">name</strong>
            <div class="div4">2ndname</div>
        </a>
        <small class="small1">
            <a href="URL" class="a2" title="INFO I WANT!">
                <div class="div5">time</div>
            </a>
        </small>
      </div>
      <p class="p1">Main info</p>



        </div>
    </div>
  </div>
</li>

我正在使用R来使用CSS包提取信息。这是现在直到现在的作用。

doc <- htmlParse("myfile")
name <- cssApply(doc, ".li1>.div1>.div2>.div3>.a1>.strong1", cssCharacter)
2ndname <- cssApply(doc, ".li1>.div1>.div2>.div3>.a1>.strong1", cssCharacter)

我想获得标题的标题,所以我直接使用XML。我试过了:

uh<-xpathApply(doc, "//li[@class='li1']/div[@class='div1']/div[@class='div2']/div[@class='div3']/small[@class='small1']/a[@class='a2']", xmlGetAttr, "title")

但我只得到NULL。一些帮助将是真正的apreciated。我读过attribute value extraction in XML using R和其他几个,但我找不到我做错了什么。 再次感谢!

1 个答案:

答案 0 :(得分:0)

实际上我误解了文件中数据的结构。这里编写的例子与解析器一起使用但实际数据没有。我错过了一个级别。