我有一个HTML文件列表。我经常需要做的是在R中打开它们找到标题部分</head>
的末尾并手动粘贴一组给定的代码,例如:
<p>This report helps you find the critical issues in your data</p>
有人可以帮我写一个代码,自动找到标题标记的结尾并粘贴给定的一组行吗?
在其他一些工具中可以使用相同的练习,但请特别为R协助我
答案 0 :(得分:1)
我认为您想要使用XML
页面并了解xpath查询,这有助于搜索HTML文件。假设您已将所有文件下载到some_dir
,并且您想解析文本并仅找到<p>
中的<div class="come_class">
。
library(XML)
files <- list.files("some_dir", full.names = TRUE, include.dirs = TRUE)
docs <- lapply(files, htmlParse)
text.nodes <-
lapply(docs, function(doc)
getNodeSet(doc, '//div[@class="some_div"]//p'))
text.value <-
lapply(text.nodes, function(node)
sapply(node, xmlValue))