从文本文件中提取链接

时间:2017-05-09 16:21:31

标签: regex bash awk sed grep

我想构建一个提取第一个href属性值的bash脚本。这是一个相对的链接。

因此,如果采用下面的代码片段,正确的输出将是“/ prd / amaz / prd151”,因为这是第一个href标记之间的文本。需要删除文件中的所有其他内容,因为我只需要相对链接。

     <td style="width: 35px;">              
      <a class="productName" href="/prd/amaz/prd151" style="color: #000000;display: inline-block; overflow: hidden">
<font style="font-weight: bold; color: #4f88b2; margin-left: 0px; width: auto" class="product-name">Amaz Prd 151</font></a>                    <br>                    
<font style="font-size: 11px; color: #828585"> Product                   </font>                    <br>
<a href="https://www.myhomedb.com/id=151"><div class="activatedCount withover" title="<div style='color: #0691ca; line-height: 15px; font-size: 11px;'><b>7 Smart Home DB Users<br/></b>actually own this product<br/><br/><b>Click to view their playbooks</b></div>"><span class="icon-size-16 product-category-icon-user-count"></span><span> 7</span></div></a>            </td>

我真的很感谢你的帮助,谢谢!

约翰

1 个答案:

答案 0 :(得分:0)

toString后面的

grep

请注意,这是纯文本搜索。它不具有上下文感知能力(无论是否在grep -oPm1 '(?<= href=")[^"]+' file 标记内)。

here是命令的解释