将特定文本放在unix中的文件末尾

时间:2013-05-12 19:37:43

标签: unix

我使用wget检索了一个html文件。我想把所有链接,即所有<a href=""> </a>放在文件的末尾。有可能吗?

例如,请考虑以下文件:

<tr style="background-color: #EFEFEF">
    <td valign="top">Line1<br />2013.05.23</td>
    <td>Line2
    <br /><a href="link.html">link</a>
    <br />Line3
    </td>
</tr>

我想将文字改为:

<tr style="background-color: #EFEFEF">
    <td valign="top">Line1<br />2013.05.23</td>
    <td>Line2
    <br />
    <br />Line3
    </td>
</tr>
<a href="link.html">link</a>

2 个答案:

答案 0 :(得分:2)

对于示例数据中的简单锚标记,此Perl脚本就足够了:

#!/usr/bin/env perl
use strict;
use warnings;

my @urls = ();

while (<>)
{
    chomp;
    if (m/\s*(<a\s+[^>]+>.*<\/a>)\s*/)
    {
        push @urls, $1;
        s///;
    }
    print "$_\n";
}

foreach my $url (@urls)
{
    print "$url\n";
}

示例输出:

<tr style="background-color: #EFEFEF">
    <td valign="top">Line1<br />2013.05.23</td>
    <td>Line2
    <br />
    <br />Line3
    </td>
</tr>
<a href="link.html">link</a>

请注意,如果输入中的单行上有多个锚标记,它也会在脚本底部的外部标记之间包含材质。如果锚标记在行间断开,则会被忽略。我毫不怀疑有HTML符号可以破坏这个脚本(但我不确定它们是什么)。

这是简单脚本的一小步:

#!/usr/bin/env perl
use strict;
use warnings;

my @urls = ();

while (<>)
{
    chomp;
    while (m/\s*(<a\s+[^>]+>.*?<\/a>)\s*/)
    {
        push @urls, $1;
        s// /;
    }
    print "$_\n";
}

foreach my $url (@urls)
{
    print "$url\n";
}

代替while的{​​{1}}循环遍历一行中的匹配。非贪婪的if量词意味着它不会吞噬中间锚标签。替代品用空白替换被移除的材料,从而保持将锚标签分开的单词。

示例数据:

.*?

示例输出:

<tr style="background-color: #EFEFEF">
    <td valign="top">Line1<br />2013.05.23</td>
    <td>Line2
    <br /><a href="link.html">link</a>
    <br />Line3
    </td>
</tr>
<tr style="background-color: #EFEFEF">
    <td valign="top">Line1<br />2013.05.23</td>
    <td>Line2
    <br /> <a href="link2.html">link</a> extraneous material <a href="link3.html">link</a> other notes <a href="link4.html">link</a>
    <br />Line3
    </td>
</tr>

您可以判断这是否足以满足您的目的。至少它为你提供了一些工作。

答案 1 :(得分:2)

如果你只想复制(而不是移动)指向文件末尾的链接,你可以做一个简单的grep(也许没有'当然为特殊情况工作):

grep -o -P '(<a href=.*?</a>)' test.html > tmp.html && cat tmp.html >> test.html