从HTML文件中提取字符串

时间:2017-01-04 18:10:58

标签: bash

对于无知感到抱歉,我刚开始并且无法在其他任何地方找到一个好的答案。基本上,我有一个HTML文件保存为明文,我想在一行内拉出一个字符串。这条线看起来像这样:

  

<li><strong>Password: XXXXXX</strong></li>

首先,它是我要拉的那一行的第二个实例。我想要的唯一部分是XXXXXX。除了XXXXXX,我宁愿删除文件中的其他所有内容。字符串经常变化,所以我不能只是为它而烦恼。谢谢你的帮助。

3 个答案:

答案 0 :(得分:2)

$ cat file
<li><strong>Password: AAAAAA</strong></li>
<li><strong>Password: XXXXXX</strong></li>
<li><strong>Password: ZZZZZZ</strong></li>

$ awk 'sub(/.*<li><strong>Password: /,"") && sub(/<\/strong><\/li>.*/,"") && ++c==2' file
XXXXXX

答案 1 :(得分:0)

这样的事情应该有效:

cat c.txt |grep "Password:"|awk '{print $2}'|awk -F "<" '{print $1}'|sed -n 2p

答案 2 :(得分:0)

只需更正NR行。

awk -F'[: <]' 'NR == 1 {print $5}' file 
XXXXXX