如何使用R中的gsub删除div标签内的内容

时间:2016-01-09 23:24:37

标签: r gsub

如何删除div标签内的内容,使用gsub知道它可以包含其他div应该被删除的事实。

鉴于此示例

"<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>"

gsub函数应该只提取div父

<div id="body-wrapper"></div>

2 个答案:

答案 0 :(得分:0)

gsub可能不是最简单或最好的方法,但可以:

gsub('>.*$', '></div>', string)

答案 1 :(得分:0)

您还可以使用str_extract_all包中的stringr功能提取所需的文字。

x1<-'<div id="body-wrapper"><div id="outer"><span>text text</span></div></div>'
y1<-unlist(str_extract_all(x1, '<div id="([^<]*)"><'))
paste0(y1, '/div>', collapse="")

输出:<div id=\"body-wrapper\"></div>