解析文档中的自定义标签/元素

时间:2019-07-11 20:18:12

标签: javascript node.js parsing

我想从发现它们的任何文档中解析诸如<blu> </blu>之类的自定义标签/元素。这些自定义标签是占位符,将由文档中的其他一些文本替换。

将在其中找到这些自定义标签的文档可以是任何类型的任何扩展名。它们可以是HTML,js,PHP,.txt,.ts,.xml等。

由于文档可以是如上所述的任何类型,因此不能使用DOM或XML解析器。

我要遵守的一些规则:

  • 元素名称始终为<blu></blu>
  • 元素可以包含内容<blu> some content here </blu>
  • 元素可以具有属性<blu file=""></blu><blu ref=""> </blu>
  • 元素可以嵌套:

    <blu> <blu ref=""> <blu file=""></blu> </blu> </blu>

作为示例文档(doc.txt):

This document is an example for parsing custom tags
Some more documentation can be found in <blu file="file:///filename.txt"></blu> 
Other things that can be done here:

  <blu if="textFile">
    <blu if="title>Leave this title here</blu>
  </blu>

The elements could also be added to other file types such as: 
<blu types=".ts,.txt,.php,.xml"></blu>
And so it goes on...

我想解析<blu>标签并获取:

  • 他们在文档中的位置
  • 它们的属性,
  • 他们的内容
  • 他们的孩子(如果有嵌套的话)(带有孩子的位置/属性)。

我看过正则表达式,解析器,对如何最好地解决这一问题尚无明确的了解。

我正在使用Node.js应用中的javascript。

实现此目标的最佳/最实用的方法是什么。

0 个答案:

没有答案