在第二个实例上部分提取非结构化数据

时间:2017-02-21 16:40:25

标签: r regex edgar

我有一个来自埃德加的巨大文本文件。我想从业务风险部分中仅提取部分文本。

例如,如果文字如下:

if(isset($_SESSION['role']) && $_SESSION['role'] == 'A') {

我想将起始位置提取为Bshehebvegegeveghdhebejejrjbfbfk(第二个实例)结束位置he(第二个实例)。

所以我的输出将是 - ge

我想在R中使用代码。我对业务风险部分特别感兴趣。

1 个答案:

答案 0 :(得分:0)

一个选项是List.replaceAll(UnaryOperator),可以找到模式“他”和“ge”的起始字符索引,然后使用gregexpr指定substr和{{1}字符串的位置来提取子字符串

start

或者只需一步

stop

数据

i1 <- gregexpr("he", str1)[[1]][2]
i2 <- gregexpr("ge", str1)[[1]][2] +1
substr(str1, i1, i2)
#[1] "hebvegege"