Question

我有一个非常长的行，我希望在class="filelink"

后面找到所有链接

链接可能如下所示

<a href="https://example.com/@api/files/123/=2008.pdf" class="filelink"

如何将这样的问题写成Perl one-liner？

更新

如果我这样做

echo '<a href="https://example.com/@api/files/123/=2008.pdf" class="filelink"' > test
perl -pe 's/href="(.*)" class="filelink"/\1/g' test

然后我得到

<a https://example.com/@api/files/123/=2008.pdf

我希望

https://example.com/@api/files/123/=2008.pdf

Answer 1

使用强大的HTML解析器而不是正则表达式的解决方案：

<input_long_line.html perl -MWeb::Query=wq -ne '
    wq($_)
    ->find("a.filelink")
    ->each(sub {
        printf "URL %s\t text %s\n", $_[1]->attr("href"), $_[1]->text
    })'

我把它包装起来以便于阅读，它可以作为一个单行使用。

Answer 2

perl -nE'say for m/<a\s+href="([^"]+)"\s+class="filelink"[^>]*>/g;'

Answer 3

使用HTML::TreeBuilder::XPath的替代方法，我发现它非常好：

M=HTML::TreeBuilder::XPath; \
perl -M$M -le 'print $_->attr("href") for ' \
           -e "$M->new_from_content(<STDIN>)->" \
           -e 'findnodes(q(//a[@class="filelink"]))' < input-file

如何一行搜索？

3 个答案: