使用xmlstarlet提取HTML

时间:2014-10-22 13:50:54

标签: html bash xmlstarlet mediawiki-extensions

我正在尝试从bash shell脚本中提取HTML文档的特定部分,并且一直在使用xmlstarlet sel,但我无法让它返回实际的HTML,而不仅仅是来自HTML标记。

我正在尝试命令行,如下所示:

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -v "." wiki.html

但它只提供文本,没有任何HTML / XML标记。有关信息,我正在尝试将此数据导出到它来自的mediawiki实例之外的HTML格式。

如果xmlstarlet是错误的工具,也非常感谢其他工具的任何建议!

1 个答案:

答案 0 :(得分:3)

-v表示--value-of,这是标记的内容。您应该使用-c--copy-of自行获取代码。

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -c "." wiki.html

或者只是

xmlstarlet sel -t -c "//div[@id='mw-content-text']" wiki.html