我有一些文字
Trotzdem gibt es Untersuchungen, die nahelegen, dass bis zu 20% der Studierenden in Deutschland während der Prüfungsvorbereitung Ritalin einschmeissen [2], Reportagen, dass britische Studierende Modafinil bestens kennen[3] und Studierende weltweit auch nach der Silk Road — einem mittlerweile eingestellten Schwarzmarkt im Deep Web – mit illegalen „Nootropics“ experimentieren.
我有一些HTML
<p>Die <span class="caps">GDS</span> zeichnet also das Bild einer Gesellschaft, in der Drogen primär Rausch, Genuss und Spass sind. Tabak ist zwar das bekannteste – und ungesündeste – Mittel gegen Stress, aber sonst sind die Leistungssteigerer in der Liste weit abgeschlagen. Trotzdem gibt es Untersuchungen, die nahelegen, dass bis zu 20% der Studierenden in Deutschland während der Prüfungsvorbereitung Ritalin einschmeissen <a href="#_ftn2" name="_ftnref2">[2]</a>, Reportagen, dass britische Studierende Modafinil bestens kennen<a href="#_ftn3" name="_ftnref3">[3]</a> und Studierende weltweit auch nach der <a href="https://de.wikipedia.org/wiki/Silk_Road" target="_blank">Silk Road</a> — einem mittlerweile eingestellten Schwarzmarkt im Deep Web – mit illegalen „Nootropics“ experimentieren.</p>
要在HTML中查找文本,我会生成一些疯狂的屁股正则表达式,在这里我用空格分割并再次加入
\s*?(?:<\/?[^>]*?>)?\s*?
大部分时间都是如此:https://regex101.com/r/hG9lT9/1
在顶部说明的情况下,它不起作用,因为在html标记之后有一个逗号,并且还有不同的破折号。所以我正在寻找创建一个更通用的正则表达式以适应原因。
以下是不起作用的示例:https://regex101.com/r/hG9lT9/2
答案 0 :(得分:-4)
拆分:<[^>]*>
? (html标签的正则表达式)