在R中提取<option>标记的内容

时间:2017-09-27 17:48:25

标签: regex html-parsing

我试图在这些<option>块中提取文本。

我所尝试的是看后面并展望未来。

(?s)(?<=option value=\"\d).*?(?=<\/option)
(?s)(?<=option value=\"[0-9]).*?(?=<\/option)

然而,价值数字会发生变化,我无法弄清楚如何在后视镜中捕获多个数字。

示例:

<option value="140">First string I wanna get</option> <option value="6070">Another string I want</option> <option value="20">This is interesting</option>

1 个答案:

答案 0 :(得分:1)

我会根据您的需要使用带有/option//option等xpression的xpath。

但是,如果你想使用正则表达式,那么你可以使用正则表达式捕获组,如下所示:

<option.*?>(.*?)</option>
or
<option[^>]+>(.*?)</option>

<强> Working demo