从HTML文件中删除不需要的换行符

时间:2009-09-16 10:55:43

标签: php html regex

我有很多HTML文件都有不需要的换行符。这些破坏了内联javascript和页面内的格式。我想想出一种方法来删除html标记之后不直接出现的页面中的所有换行符,例如</div>。有没有人知道可以实现这个的正则表达式和/或程序?

2 个答案:

答案 0 :(得分:1)

您可以使用Notepad++的搜索/替换功能,使用正则表达式来捕获大部分内容。

类似的东西:

([^>])\n(.+)

替换为:

\1 \2

答案 1 :(得分:0)

您可以使用负面的lookbehind来匹配换行符

<?php

$buffer = file_get_contents('test.html');

// replace all line feeds not preceded by </div>
$buffer = preg_replace('|(?<!</div>)[\r\n]|', "", $buffer);

file_put_contents('test.new.html', $buffer);
?>

请参阅:http://www.regular-expressions.info/lookaround.html