在R中的函数之间简单解析?

时间:2013-02-12 12:28:33

标签: regex r html-parsing

假设我想提取在两个已定义字符串之间找到的字符串。例如,我们称之为parse_between()的函数在R:

中的工作方式如下
>main_string<-"the quick brown fox>$ jumps over the lazy </ dog"
>substring<-parse_between(main_string, begin=">$", end="</")
>substring
[1] " jumps over the lazy "

如果能够生成包含与每个实例对应的元素的向量,那就更好了。我已经搜索了一些可用于字符串操作的软件包,比如“stringr”,但是没有像示例所示那样轻松地找到执行此操作的函数。我的动机是不幸地解析html文件,尽管我没有为R找到html解析器。

1 个答案:

答案 0 :(得分:2)

首先,请阅读此问题&amp;回答非常仔细: RegEx match open tags except XHTML self-contained tags

然后,如果仍未取消,请使用regexgsub,两者都有指定行的开头或结尾的元字符。你可以做的是替换

{start_of_line through to ">$"} 

什么都没有,然后替换

{"</" through to end_of_line}
什么也没有。