使用Regex以HTML格式查找文本

时间:2015-09-09 08:55:42

标签: javascript html regex

我有一些文字

Trotz­dem gibt es Unter­su­chun­gen, die nahe­le­gen, dass bis zu 20% der Stu­die­ren­den in Deutsch­land wäh­rend der Prü­fungs­vor­be­rei­tung Rita­lin ein­schmeis­sen [2], Repor­ta­gen, dass bri­ti­sche Stu­die­rende Moda­fi­nil bes­tens ken­nen[3] und Stu­die­rende welt­weit auch nach der Silk Road — einem mitt­ler­weile ein­ge­stell­ten Schwarz­markt im Deep Web – mit ille­ga­len „Nootro­pics“ experimentieren.

我有一些HTML

<p>Die <span class="caps">GDS</span> zeich­net also das Bild einer Gesell­schaft, in der Dro­gen pri­mär Rausch, Genuss und Spass sind. Tabak ist zwar das bekann­teste – und unge­sün­deste – Mit­tel gegen Stress, aber sonst sind die Leis­tungs­stei­ge­rer in der Liste weit abge­schla­gen. Trotz­dem gibt es Unter­su­chun­gen, die nahe­le­gen, dass bis zu 20% der Stu­die­ren­den in Deutsch­land wäh­rend der Prü­fungs­vor­be­rei­tung Rita­lin ein­schmeis­sen <a href="#_ftn2" name="_ftnref2">[2]</a>, Repor­ta­gen, dass bri­ti­sche Stu­die­rende Moda­fi­nil bes­tens ken­nen<a href="#_ftn3" name="_ftnref3">[3]</a> und Stu­die­rende welt­weit auch nach der <a href="https://de.wikipedia.org/wiki/Silk_Road" target="_blank">Silk Road</a> — einem mitt­ler­weile ein­ge­stell­ten Schwarz­markt im Deep Web – mit ille­ga­len „Nootro­pics“ experimentieren.</p>

要在HTML中查找文本,我会生成一些疯狂的屁股正则表达式,在这里我用空格分割并再次加入

\s*?(?:<\/?[^>]*?>)?\s*?

大部分时间都是如此:https://regex101.com/r/hG9lT9/1

在顶部说明的情况下,它不起作用,因为在html标记之后有一个逗号,并且还有不同的破折号。所以我正在寻找创建一个更通用的正则表达式以适应原因。

以下是不起作用的示例:https://regex101.com/r/hG9lT9/2

1 个答案:

答案 0 :(得分:-4)

拆分:<[^>]*>? (html标签的正则表达式)