嗨好伙伴们,我有一个真正的麻烦,在嵌套时从中获取xml标签。我需要你的帮助,在嵌套时从xml文件中找到起始标记和结束标记?使用Perl脚本(正则表达式或模块......一切正常)但只有perl
**注意:我需要为标签编号,严格来说我不需要标签内的内容。
尝试复制epsilon,因为当我选择起始标记时它会显示正确的结束标记。但我不能。**
下面粘贴的样本是一个小片段,但我需要任意数量的嵌套代码
sample Tag:
<mrow><mrow><mrow>....<mi>K<\mi>...<\mrow><mi><\mi><\mrow><\mrow>
expected output:
<mrow1><\mrow1>
<mrow2><\mrow2>
<mrow3><\mrow3>
答案 0 :(得分:0)
我建议使用 Perl XML / XPath库。
XML不是常规语言,因此在一般情况下正则表达式是不够的。尝试编写新代码以从XML文档中提取标记最终将归结为从头开始重写基本(即,不一定完全符合)的XML解析器。
XML使用如此广泛的一个原因是它是一个W3C标准,因此有很多现有的符合解析器,这节省了编写新解析器的时间和精力。一些解析器会将文档暴露给宿主语言(例如DOM),其中一些将包含XPath,这使得它更容易。
我希望这有帮助!