从HTML文件中删除标记之间的一些文本

时间:2016-12-29 23:45:00

标签: bash parsing awk sed

我有多个HTML文件,如下所示:

</HEAD><BODY><B> something <BR>bla bla bla  
<A  HREF=http://www.exemple.com>http://exemple.com</A> -  site bla   
bla bla bla (test n°15336) <BR><BR><BR><HR>

我想这样做:

</HEAD><BODY><B> something <BR> <BR><BR><BR><HR>

什么都行不通:sed,grep,awk ......有什么建议吗?

1 个答案:

答案 0 :(得分:-1)

我回来在长时间搜索后发布解决方案 首先,我需要解析我的html文件,所以我创建了一个完成此任务的PHP代码非常简单和有用

<?php

define('TEMPLATE', __DIR__ . DIRECTORY_SEPARATOR . 'test.html');
$template = file_get_contents(TEMPLATE);
$st='';
$template = preg_replace('#(<\/A>).*?(<BR>)#is', $st, $template);
$template = preg_replace('#(<BR>).*?(<BR>)#is', $st, $template);
$file = 'output.html';
file_put_contents($file, $template);
?>  

Et Voila !!!!!! XD 感谢您的声誉,再次感谢您的帮助。