假设我想提取在两个已定义字符串之间找到的字符串。例如,我们称之为parse_between()
的函数在R:
>main_string<-"the quick brown fox>$ jumps over the lazy </ dog"
>substring<-parse_between(main_string, begin=">$", end="</")
>substring
[1] " jumps over the lazy "
如果能够生成包含与每个实例对应的元素的向量,那就更好了。我已经搜索了一些可用于字符串操作的软件包,比如“stringr”,但是没有像示例所示那样轻松地找到执行此操作的函数。我的动机是不幸地解析html文件,尽管我没有为R找到html解析器。
答案 0 :(得分:2)
首先,请阅读此问题&amp;回答非常仔细: RegEx match open tags except XHTML self-contained tags
然后,如果仍未取消,请使用regex
或gsub
,两者都有指定行的开头或结尾的元字符。你可以做的是替换
{start_of_line through to ">$"}
什么都没有,然后替换
{"</" through to end_of_line}
什么也没有。