awk如何从html标记中提取信息

时间:2014-10-05 02:18:07

标签: html bash awk

我希望FS为< ......>

点是任何东西。所以如果我让我们说

<td width="50%" valign="top">System Hardware</td>

我想提取System Hardware。我尝试了两件事,但它不起作用。

  1. awk -F "\<([^>]+)\>" '{print $1}' test.txt
  2. awk -F "\<?*\>" '{print $1}' test.txt
  3. 在这两种情况下我什么都没得到

1 个答案:

答案 0 :(得分:3)

你没有得到任何东西,因为你告诉awk打印$ 1,这将是第一个字段分隔符之前的字段。你想要print $2

$ awk -F'<[^>]+>' '{print $2}' file
System Hardware