Question

我有以下字符串：

CO<sub>2</sub> is one of the most abundant gases there is, while C<sub>2</sub>SO<sub>4</sub> is very corrosive. Drink H<sub>2</sub> to stay hydrated.

我想从此字符串中提取包含子标签的所有单词。

对于正则表达式，我已经做到了这一点，但似乎无法弄清楚如何继续。

Answer 1

以下方法应该起作用：

/\w*<sub>\w*<\/sub>[^ \.]*/g

说明：

Answer 2

已更新：选择所有包含标签的单词

(\w+<sub>\w+<\/sub>)+

\w+匹配任何单词字符

从字面上匹配字符（区分大小写）

<\/sub>从字面上匹配字符（区分大小写）

+在一次和无限次之间进行匹配