我正在使用web harvest(http://web-harvest.sourceforge.net/),这是一个开源网络抓取工具。
我尝试使用的正则表达式有“<”,“>”字符(因为我试图删除所有进入的HTML标记)。这会导致问题,因为元素的内容必须由格式良好的字符数据或标记组成。
我需要以某种方式逃避正则表达式,但无法弄清楚如何。
有什么想法吗?
答案 0 :(得分:1)
使正则表达式格式良好的XML。尝试将<
替换为<
,将>
替换为>
。同样,如果正则表达式中有&
,则需要将其替换为&
。
另外,我建议您使用HTML解析器而不是正则表达式来执行此任务。