使用awk从html中提取数据

时间:2016-09-06 16:40:50

标签: html bash awk

我希望使用awk从此表中提取数据,但我无法获得正确的输出。表中的每一行都如下所示:

<tr>
    <td class="center">4
    </td>
    <td>Bergkrystallen via Majorstuen
    </td>
    <td>
    <img src='/Content/img/train2.png'/>
    </td>
    <td>18:55
    </td>
    <td class="center">1</td>
</tr>

我想要这个:4 Bergkrystallen来自Majorstuen 18:55

我尝试过使用awk,但我无法做到正确:

file.html | awk -F "</?td.*>" '/<\/?td.*>.*/ {print $2 }'

1 个答案:

答案 0 :(得分:1)

尝试:

 awk -F "</?td.*>" '/<\/?td.*>.*/ {printf "%s ",$2 } END {printf "\n"}'

注意 - 可能仅在您的源HTML一致时才有效...

:)
戴尔