使用正则表达式从html标记中提取双引号

时间:2012-03-02 00:12:04

标签: html regex

我正在使用这种模式从网站中提取一些内容:

 ([^+]+)

并输出

< img src=""http://www."" border=""0""/>
带双引号的

我的查询出了什么问题?

1 个答案:

答案 0 :(得分:0)

只有修改正则表达式才能解决问题。

但首先要注意:

  

一般来说,使用正则表达式尝试实现的目标是不可行的。他们是不合适的工具。你不会使用正则表达式提供100%正确的解决方案

说完这个,尝试用([^+]+)替换(([^<!--]+([^<]|<[^!]|<![^-]|<!-[^-]))+)。请注意,此正则表达式假设如下:

  • 消息部分
  • 内没有html评论
  • 消息部分
  • 中没有包含html注释开头的字符串
  • 消息部分是有效的html片段
    (否则它将匹配例如。<!-<!-- / message -->
你被警告了。

顺便说一下,dquote加倍必须是imacro环境的标准逃逸机制。