我需要在HTML文件中删除锚点,但只包含href
包含todaycycling.com/tag
的文件。
我的所作所为:
<strong>Un Allemand peut en cacher un autre. Après Marcel Kittel, c\'est <a href=\"http://todaycycling.com/tag/andre-greipel\">André Greipel</a> qui a imposé sa pointe de vitesse à l\'issue de la cinquième étape du <a href=\"/tour-ditalie/\">Tour d\'Italie</a>. Dans une arrivée en faux plat montant, le sprinteur de la formation <a href=\"http://todaycycling.com/tag/lotto-soudal\">Lotto Soudal</a> a produit un intense effort pour aller chercher la victoire devant Arnaud Démare (FDJ), encore deuxième, et Sonny Colbrelli (Bardiani-CSF).
我愿意拥有什么:
<strong>Un Allemand peut en cacher un autre. Après Marcel Kittel, c\'est André Greipel qui a imposé sa pointe de vitesse à l\'issue de la cinquième étape du <a href=\"/tour-ditalie/\">Tour d\'Italie</a>. Dans une arrivée en faux plat montant, le sprinteur de la formation Lotto Soudal a produit un intense effort pour aller chercher la victoire devant Arnaud Démare (FDJ), encore deuxième, et Sonny Colbrelli (Bardiani-CSF).
到目前为止我尝试过:
sed 's|<a [^>]*todaycycling\.com\/tag\/[^>]*>\([^>]*\)</a>|\1|Ig' old.html > new.html
答案 0 :(得分:1)
你真的很接近结果,你可以使用以下sed
命令:
sed 's@<a\s\+href\s*=\s*\\"http://todaycycling\.com/[^>]*>\([^<]*\)</a>@\1@g' tourDeFrance.txt
<强>输出:强>
<strong>Un Allemand peut en cacher un autre. Après Marcel Kittel, c\'est André Greipel qui a imposé sa pointe de vitesse à l\'issue de la cinquième étape du <a href=\"/tour-ditalie/\">Tour d\'Italie</a>. Dans une arrivée en faux plat montant, le sprinteur de la formation Lotto Soudal a produit un intense effort pour aller chercher la victoire devant Arnaud Démare (FDJ), encore deuxième, et Sonny Colbrelli (Bardiani-CSF).