sed从特定href上的文本中删除锚点

时间:2018-01-26 08:15:59

标签: html sed

我需要在HTML文件中删除锚点,但只包含href包含todaycycling.com/tag的文件。

我的所作所为:

<strong>Un Allemand peut en cacher un autre. Après Marcel Kittel, c\'est <a href=\"http://todaycycling.com/tag/andre-greipel\">André Greipel</a> qui a imposé sa pointe de vitesse à l\'issue de la cinquième étape du <a href=\"/tour-ditalie/\">Tour d\'Italie</a>. Dans une arrivée en faux plat montant, le sprinteur de la formation <a href=\"http://todaycycling.com/tag/lotto-soudal\">Lotto Soudal</a> a produit un intense effort pour aller chercher la victoire devant Arnaud Démare (FDJ), encore deuxième, et Sonny Colbrelli (Bardiani-CSF).

我愿意拥有什么:

<strong>Un Allemand peut en cacher un autre. Après Marcel Kittel, c\'est André Greipel qui a imposé sa pointe de vitesse à l\'issue de la cinquième étape du <a href=\"/tour-ditalie/\">Tour d\'Italie</a>. Dans une arrivée en faux plat montant, le sprinteur de la formation Lotto Soudal a produit un intense effort pour aller chercher la victoire devant Arnaud Démare (FDJ), encore deuxième, et Sonny Colbrelli (Bardiani-CSF).

到目前为止我尝试过:

sed 's|<a [^>]*todaycycling\.com\/tag\/[^>]*>\([^>]*\)</a>|\1|Ig' old.html > new.html

1 个答案:

答案 0 :(得分:1)

你真的很接近结果,你可以使用以下sed命令:

sed 's@<a\s\+href\s*=\s*\\"http://todaycycling\.com/[^>]*>\([^<]*\)</a>@\1@g' tourDeFrance.txt

<强>输出:

<strong>Un Allemand peut en cacher un autre. Après Marcel Kittel, c\'est André Greipel qui a imposé sa pointe de vitesse à l\'issue de la cinquième étape du <a href=\"/tour-ditalie/\">Tour d\'Italie</a>. Dans une arrivée en faux plat montant, le sprinteur de la formation Lotto Soudal a produit un intense effort pour aller chercher la victoire devant Arnaud Démare (FDJ), encore deuxième, et Sonny Colbrelli (Bardiani-CSF).