我有一个非常长的行,我希望在class="filelink"
链接可能如下所示
<a href="https://example.com/@api/files/123/=2008.pdf" class="filelink"
如何将这样的问题写成Perl one-liner?
更新
如果我这样做
echo '<a href="https://example.com/@api/files/123/=2008.pdf" class="filelink"' > test
perl -pe 's/href="(.*)" class="filelink"/\1/g' test
然后我得到
<a https://example.com/@api/files/123/=2008.pdf
我希望
https://example.com/@api/files/123/=2008.pdf
答案 0 :(得分:10)
使用强大的HTML解析器而不是正则表达式的解决方案:
<input_long_line.html perl -MWeb::Query=wq -ne '
wq($_)
->find("a.filelink")
->each(sub {
printf "URL %s\t text %s\n", $_[1]->attr("href"), $_[1]->text
})'
我把它包装起来以便于阅读,它可以作为一个单行使用。
答案 1 :(得分:3)
perl -nE'say for m/<a\s+href="([^"]+)"\s+class="filelink"[^>]*>/g;'
答案 2 :(得分:2)
使用HTML::TreeBuilder::XPath
的替代方法,我发现它非常好:
M=HTML::TreeBuilder::XPath; \
perl -M$M -le 'print $_->attr("href") for ' \
-e "$M->new_from_content(<STDIN>)->" \
-e 'findnodes(q(//a[@class="filelink"]))' < input-file