在“>上拆分长字符串

时间:2013-04-18 16:41:33

标签: java regex coldfusion split

我正在尝试使用split()方法来拆分包含重复标记的长字符串(包含CFML代码的文本文档的内容),每个字符都以这两个字符终止:">和一行断裂。

我无法弄清楚如何实现这一点,尝试多个没有运气的正则表达式,在提到的标签内部可以嵌套其他标签(请不要问为什么:-)),并且这些嵌套标签上的拆分中断,即使它们不包含">

示例:

<cfset code = "Text text text <table style='width:538px; [... more text stripped ...] </table>">
<cfset another_code = "Text text text">
...

任何线索都会非常感激!

2 个答案:

答案 0 :(得分:1)

要使用纯正则表达式,我会使用str.split(Pattern.quote("\">"))

但是,您应该考虑使用XML解析器,如SAX,StAX,DOM解析器等。不需要重新发明轮子。

答案 1 :(得分:1)

我不确定你要做什么,但如果你想分开">(new line),那么可以使用split("\">\r?\n")。但也许您想要拆分之前有">的新线号?在这种情况下,您可以使用像split("(?<=\">)\r?\n")

这样的后视机制