Question

我有一个HTML文件列表。我经常需要做的是在R中打开它们找到标题部分</head>的末尾并手动粘贴一组给定的代码，例如：

<p>This report helps you find the critical issues in your data</p>

有人可以帮我写一个代码，自动找到标题标记的结尾并粘贴给定的一组行吗？

在其他一些工具中可以使用相同的练习，但请特别为R协助我

Answer 1

我认为您想要使用XML页面并了解xpath查询，这有助于搜索HTML文件。假设您已将所有文件下载到some_dir，并且您想解析文本并仅找到<p>中的<div class="come_class">。

library(XML)
files <- list.files("some_dir", full.names = TRUE, include.dirs = TRUE)
docs <- lapply(files, htmlParse)

text.nodes <- 
  lapply(docs, function(doc) 
    getNodeSet(doc, '//div[@class="some_div"]//p'))

text.value <- 
  lapply(text.nodes, function(node)
            sapply(node, xmlValue))

用于自动编辑html的代码

1 个答案: