用于自动编辑html的代码

时间:2016-06-21 09:13:51

标签: html r

我有一个HTML文件列表。我经常需要做的是在R中打开它们找到标题部分</head>的末尾并手动粘贴一组给定的代码,例如:

<p>This report helps you find the critical issues in your data</p>

有人可以帮我写一个代码,自动找到标题标记的结尾并粘贴给定的一组行吗?

在其他一些工具中可以使用相同的练习,但请特别为R协助我

1 个答案:

答案 0 :(得分:1)

我认为您想要使用XML页面并了解xpath查询,这有助于搜索HTML文件。假设您已将所有文件下载到some_dir,并且您想解析文本并仅找到<p>中的<div class="come_class">

library(XML)
files <- list.files("some_dir", full.names = TRUE, include.dirs = TRUE)
docs <- lapply(files, htmlParse)

text.nodes <- 
  lapply(docs, function(doc) 
    getNodeSet(doc, '//div[@class="some_div"]//p'))

text.value <- 
  lapply(text.nodes, function(node)
            sapply(node, xmlValue))