我有一个来自埃德加的巨大文本文件。我想从业务风险部分中仅提取部分文本。
例如,如果文字如下:
if(isset($_SESSION['role']) && $_SESSION['role'] == 'A') {
我想将起始位置提取为Bshehebvegegeveghdhebejejrjbfbfk
(第二个实例)结束位置he
(第二个实例)。
所以我的输出将是 -
ge
我想在R中使用代码。我对业务风险部分特别感兴趣。
答案 0 :(得分:0)
一个选项是List.replaceAll(UnaryOperator)
,可以找到模式“他”和“ge”的起始字符索引,然后使用gregexpr
指定substr
和{{1}字符串的位置来提取子字符串
start
或者只需一步
stop
i1 <- gregexpr("he", str1)[[1]][2]
i2 <- gregexpr("ge", str1)[[1]][2] +1
substr(str1, i1, i2)
#[1] "hebvegege"