Question

我有一个来自埃德加的巨大文本文件。我想从业务风险部分中仅提取部分文本。

例如，如果文字如下：

if(isset($_SESSION['role']) && $_SESSION['role'] == 'A') {

我想将起始位置提取为Bshehebvegegeveghdhebejejrjbfbfk（第二个实例）结束位置he（第二个实例）。

所以我的输出将是 - ge

我想在R中使用代码。我对业务风险部分特别感兴趣。

Answer 1

一个选项是List.replaceAll(UnaryOperator)，可以找到模式“他”和“ge”的起始字符索引，然后使用gregexpr指定substr和{{1}字符串的位置来提取子字符串

start

或者只需一步

stop

i1 <- gregexpr("he", str1)[[1]][2]
i2 <- gregexpr("ge", str1)[[1]][2] +1
substr(str1, i1, i2)
#[1] "hebvegege"