我正在尝试编写一个小的bash脚本:
我遇到的问题是HTML文件使用内联CSS 格式化表格,但页面的实际代码存储在一个长行上。
实际上,我需要一个能够扫描单行代码的Linux实用程序 每个标记之间的每个文本实例,并将这些实例插入到自己的行中。这应该使扫描文本更容易。我尝试过的每一个工具都是按行进行搜索,因为整个代码都存储在一行中,所以我无法完成所需的工作。
答案 0 :(得分:1)
您可以先将>
替换为>\n
,然后将内容拆分为行。这将在每个HTML标记的末尾分解文档。
也许您甚至不需要这样做:如果您使用awk的RS
变量将记录分隔符定义为“>”而不是换行线。有关使用RS的示例,请参阅此页面:http://www.thegeekstuff.com/2010/01/8-powerful-awk-built-in-variables-fs-ofs-rs-ors-nr-nf-filename-fnr/