我是业余PHP / Javascript程序员,试图创建一个解析器,将数据从纯文本转换为XML。
明文的布局因文档而异,但每个内容的内容相同,只是它的表现方式。
我有一半编写自定义解析器来转换数据,想知道我是否马上就此了解?
我尝试阅读递归下降解析器和LALR解析器,但它似乎超出了我的想象,所以我想知道我是否通过提出自己的方法来浪费我的时间?
我已经对每个重要元素进行了标记,得分(根据模式中存储的信息)并计算每个模式的频率。
使用分数(通过为捕获的每个信息位添加1,2,4,8等来完成)可以清除潜在的重复模式/信息(因为信息的布局将是一种设置格式并且在整个明文中重复,并且频率可以丢弃那些不太可能传达任何含义的模式。
这是正确的方法还是我造成了可维护性危害?
我顺便使用PHP。