应用错误收集

时间：2013-02-10 00:40:31

标签： string bash sed awk

我正在尝试编写一个小的bash脚本：

我遇到的问题是HTML文件使用内联CSS 格式化表格，但页面的实际代码存储在一个长行上。

实际上，我需要一个能够扫描单行代码的Linux实用程序每个标记之间的每个文本实例，并将这些实例插入到自己的行中。这应该使扫描文本更容易。我尝试过的每一个工具都是按行进行搜索，因为整个代码都存储在一行中，所以我无法完成所需的工作。

答案 0 :(得分：1)

您可以先将>替换为>\n，然后将内容拆分为行。这将在每个HTML标记的末尾分解文档。

也许您甚至不需要这样做：如果您使用awk的RS变量将记录分隔符定义为“＆gt;”而不是换行线。有关使用RS的示例，请参阅此页面：http://www.thegeekstuff.com/2010/01/8-powerful-awk-built-in-variables-fs-ofs-rs-ors-nr-nf-filename-fnr/