双向文本解析建议

时间:2011-02-26 20:55:57

标签: php text markdown tokenize text-parsing

我正在研究实现双向文本解析框架的可行性,以允许使用常见范例(如Markdown,BBCode,DocuWiki等)的组合处理格式化文本。实际上,这意味着每个实现必须能够转换为通用格式。这可能是HTML,但更实际上是一种中间(更容易解析)格式,如XML或YAML。

这可能会利用一个标记器将文档分解为相关的组件。这听起来像是最好的方法,你能预见到任何重大的障碍吗?

最后,是否有人知道现有的实施(或尝试)。

请注意,这主要关注PHP,但欢迎使用其他解决方案。

1 个答案:

答案 0 :(得分:1)

查看一下HTML解析器的来源,例如Nokogiri,Hpricot,BeautifulSoup等。它们将为您提供构建结构化文本解析器的一些思考。

可能没有必要转换为中间格式,因为您的标记化对象树将是构建所有输出格式所需的全部内容。

如果您有具体的实施问题,也应该发布它们。