...
<div class="article_header">
...
<a href="abc" title="PDF">XXX</a>
...
</div>
...
鉴于上述XML,我只想打印“ abc”。我可以在python中使用lxml来这样做。但这涉及到制作python程序。我想要一种更像衬纸的东西(就像awk一样,衬纸比Python更容易处理TSV文件)来提取这样的简短信息。
有没有可以做到这一点的工具?有人可以告诉我最简单的方法吗?
答案 0 :(得分:2)
您可以使用xmlstarlet。这是用于查询XML文件的Linux命令行工具。
例如,使用
xmlstarlet sel -t -v "//div[@class='article_header']/a/@href" input.xml
输出为:
abc