Rvest提取文档范围按开始/结束ID

时间:2018-01-08 19:53:16

标签: html r rvest

是否可以根据特定的起点和终点选择HTML文档的摘录?例如:

的index.html

<!DOCTYPE html>
<html>
<head></head>
<body>
    <div></div>
    <div>
        <p id='fromhere'></p>
    </div>
    <div></div>
    <div>
        <pre id='tohere'></pre>
    </div>
    <div></div>
</body>
</html>

- [R

require(rvest)
require(xml2)
read_html('index.html') %>% get_dom_extract('#fromhere', '#tohere')

是否存在类似get_dom_extract的任何内容,或者是否可以通过多种方法实现? css选择方法似乎不太可能,尽管我可能错过了一些东西。

1 个答案:

答案 0 :(得分:1)

以下习语将根据标签嵌套的方式而改变。参考:node-set intersection

UIView