HTML正则表达式的替代方案

时间:2012-03-10 02:25:34

标签: html regex xhtml html-parsing

我一遍又一遍地看到Stack Overflow,正则表达式不适合XHTML。然而,我没有看到的是另一种选择。

大多数文本编辑器都有内置的RegEx搜索和替换,这非常容易使用。好吧,除了它与HTML不兼容的事实。是否有一些工具或语言用于解析替换XHTML?如果你能说“找到具有”引用“类的所有段落标签在DIV中的”猴子“类,然后在里面添加带有”猴子报价“的H2标签,那就太棒了。

我正在努力寻找解决方案的另一个例子是找到段落标记内的所有单词并在它们周围包裹SPAN标记(用于逐字突出显示音频)。那种东西。

是否有适用于此类事情的工具或语言?

2 个答案:

答案 0 :(得分:3)

从你上一篇评论中,我假设你想从命令行中获得一些有用的东西。

如果是这样,在这里回答得非常好:

Grep and Sed Equivalent for XML Command Line Processing

答案 1 :(得分:3)

如果您的文档格式正确,XSLTXPATH可以满足您的需求。