在Web Harvest中创建具有特殊字符的正则表达式

时间:2011-02-10 20:15:24

标签: xml regex webharvest

我正在使用web harvest(http://web-harvest.sourceforge.net/),这是一个开源网络抓取工具。

我尝试使用的正则表达式有“<”,“>”字符(因为我试图删除所有进入的HTML标记)。这会导致问题,因为元素的内容必须由格式良好的字符数据或标记组成。

我需要以某种方式逃避正则表达式,但无法弄清楚如何。

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

使正则表达式格式良好的XML。尝试将<替换为&lt;,将>替换为&gt;。同样,如果正则表达式中有&,则需要将其替换为&amp;

另外,我建议您使用HTML解析器而不是正则表达式来执行此任务。