我和Yahoo! pipes鬼混,我正在用一些正常的表情撞墙。现在我熟悉Perl的正则表达式,但雅虎的规则似乎有所不同!管道
我正在做的是获取一个页面并尝试将其转换为一个feed,我从HTML中删除链接的正则表达式工作得很好,但我想要的标题是< i> ; 标签只输出原始文本。
在Perl和此online regexp tester上匹配的示例文本:
< a rel =“nofollow”target =“_ blank”HREF =“http://changed.to/protect/the-guilty.html”>< i>“Fee Fi Fo Fun”(英文版) )LT / I>< / A> (另请参阅此其他网站< a rel =“nofollow”target =“_ blank”href =“http://stackoverflow.com”> Nada< / a>)此处的其他一些文字
答案 0 :(得分:6)
标题的RegEx:
(?i).*?<i>([^<]*).* [ ] g [x] s [ ] m [ ] i
链接的RegEx:
(?i).*?href="([^"]*).* [ ] g [x] s [ ] m [ ] i
不知何故,不区分大小写的复选框似乎已损坏。幸运的是,你可以用(?i)
代替,这很好用。
这是一个很好的web2.0-ish工具,用于测试正则表达式:RegExr。但由于某种原因,它仍然是测试版。 ; - )
答案 1 :(得分:2)
使用YP需要注意的一件重要事情就是不要相信调试屏幕,它有一个小小的怪癖,即从视图中隐藏一些标签,这些标签在尝试重新加工时不会造成混乱。要公开任何隐藏的html替换'&lt;'用'#'
之类的东西