我有这个字符串:
<a href="/article/aujourd-hui-moment-calin-avec-mon-copain-attache-et-a-4-pattes-il-finis-en-moi-et-recoit-u_267211.html">
Aujourd’hui, moment à la fois câlin et torride avec mon copain. On se fait un petit délire BDSM et, me retrouvant à 4 pattes, il m'attache. Après cette session où on en a fini, il reçoit un appel urgent et part. En me laissant comme ça. VDM
</a>
我想得到这个:
Aujourd’hui, moment à la fois câlin et torride avec mon copain. On se fait un petit délire BDSM et, me retrouvant à 4 pattes, il m'attache. Après cette session où on en a fini, il reçoit un appel urgent et part. En me laissant comme ça. VDM
我已经进行了研究并成功使用了这个正则表达式
[^&GT;] +(= \&LT;?)
问题是我有其他类似的字符串:
<a href="/aleatoire">Aléatoire <span class="rub_icon icon-dice"></span></a>
使用此字符串和正则表达式我得到Aléatoire
且不好。
所以我想将正则表达式改进为仅获取 BEGINS 与Aujourd’hui
的整个句子
有人可以有解决方案吗?我不习惯正则表达式。
答案 0 :(得分:0)
所以,基于你的解释:
>\s?(Aujourd’hui.*?)\s?<
>< specifies that content is between brackets (outside of html)
\s? specifies that there may be, but doesnt have to be whitespace
没有:
<a>string</a>
使用:
<a>
string
</a>
Aujourd’hui specifies match has to start with this word
.*? specifies optional additional characters in string
我希望订单很明显。
编辑:为了避免混淆,我们正在讨论
_match
函数 完整正则表达式为/>\s?(Aujourd’hui.*?)\s?</g
。
答案 1 :(得分:0)
在Sed中,要仅打印不以标记开头的行,您可以使用:
sed -n '/^[^<].*$/p' fr.html
Aujourd’hui, moment à la fois câlin et torride avec mon copain. On se fait un petit délire BDSM et, me retrouvant à 4 pattes, il m'attache. Après cette session où on en a fini, il reçoit un appel urgent et part. En me laissant comme ça. VDM
或者你可以做两次相反的事情,删除以标签开头的行:
sed '/^<.*$/d' fr.html
Aujourd’hui, moment à la fois câlin et torride avec mon copain. On se fait un petit délire BDSM et, me retrouvant à 4 pattes, il m'attache. Après cette session où on en a fini, il reçoit un appel urgent et part. En me laissant comme ça. VDM