我正在尝试使用split()
方法来拆分包含重复标记的长字符串(包含CFML代码的文本文档的内容),每个字符都以这两个字符终止:">
和一行断裂。
我无法弄清楚如何实现这一点,尝试多个没有运气的正则表达式,在提到的标签内部可以嵌套其他标签(请不要问为什么:-)),并且这些嵌套标签上的拆分中断,即使它们不包含">
示例:
<cfset code = "Text text text <table style='width:538px; [... more text stripped ...] </table>">
<cfset another_code = "Text text text">
...
任何线索都会非常感激!
答案 0 :(得分:1)
要使用纯正则表达式,我会使用str.split(Pattern.quote("\">"))
。
但是,您应该考虑使用XML解析器,如SAX,StAX,DOM解析器等。不需要重新发明轮子。
答案 1 :(得分:1)
我不确定你要做什么,但如果你想分开">(new line)
,那么可以使用split("\">\r?\n")
。但也许您想要拆分之前有">
的新线号?在这种情况下,您可以使用像split("(?<=\">)\r?\n")