Question

我有一些文字

Trotzdem gibt es Untersuchungen, die nahelegen, dass bis zu 20% der Studierenden in Deutschland während der Prüfungsvorbereitung Ritalin einschmeissen [2], Reportagen, dass britische Studierende Modafinil bestens kennen[3] und Studierende weltweit auch nach der Silk Road — einem mittlerweile eingestellten Schwarzmarkt im Deep Web – mit illegalen „Nootropics“ experimentieren.

我有一些HTML

<p>Die <span class="caps">GDS</span> zeichnet also das Bild einer Gesellschaft, in der Drogen primär Rausch, Genuss und Spass sind. Tabak ist zwar das bekannteste – und ungesündeste – Mittel gegen Stress, aber sonst sind die Leistungssteigerer in der Liste weit abgeschlagen. Trotzdem gibt es Untersuchungen, die nahelegen, dass bis zu 20% der Studierenden in Deutschland während der Prüfungsvorbereitung Ritalin einschmeissen <a href="#_ftn2" name="_ftnref2">[2]</a>, Reportagen, dass britische Studierende Modafinil bestens kennen<a href="#_ftn3" name="_ftnref3">[3]</a> und Studierende weltweit auch nach der <a href="https://de.wikipedia.org/wiki/Silk_Road" target="_blank">Silk Road</a> — einem mittlerweile eingestellten Schwarzmarkt im Deep Web – mit illegalen „Nootropics“ experimentieren.</p>

要在HTML中查找文本，我会生成一些疯狂的屁股正则表达式，在这里我用空格分割并再次加入

\s*?(?:<\/?[^>]*?>)?\s*?

大部分时间都是如此：https://regex101.com/r/hG9lT9/1

在顶部说明的情况下，它不起作用，因为在html标记之后有一个逗号，并且还有不同的破折号。所以我正在寻找创建一个更通用的正则表达式以适应原因。

以下是不起作用的示例：https://regex101.com/r/hG9lT9/2

Answer 1

拆分：<[^>]*>？（html标签的正则表达式）

使用Regex以HTML格式查找文本

1 个答案: