Java / Android HTML自定义标记解析器

时间:2015-02-07 01:28:37

标签: java android html-parsing jsoup jericho-html-parser

我正试图找出一种方法来解析带有自定义标签的html文件:

[custom tag="id"]

以下是我正在使用的文件示例:

<p>This is an <em>amazing</em> example. </p>
<p>Such amazement, <span>many wow.</span> </p>
<p>Oh look, a wild [custom tag="amaze"] appears.</p>
We need maor embeds <a href="http://youtu.be/F5nLu232KRo"> bro

我想要的(在一个理想的世界中)是回归是一个元素列表):

List foundElements = [text, custom tag, text, link, text]

上述列表中的元素包含:

文字:

<p>This is an <em>amazing</em> example. </p>
<p>Such amazement, <span>many wow.</span> </p>
<p>Oh look, a wild [custom tag="amaze"] appears.</p>
We need maor embeds

自定义标记:

[custom tag="amaze"]

链接:

<a href="http://youtu.be/F5nLu232KRo">

文字:

 appears.</p>We need maor embeds

我尝试了什么:

  1. Jsoup
    Jsoup很棒,它非常适合HTML。问题是我无法通过打开“[”和关闭“]”来定义自定义标签。如果我错了,请纠正我?
  2. Jericho
    再次像Jsoup一样,Jericho工作得很好..除了定义自定义标签。您required使用“&lt;”。
  3. Java Regex
    这是我真的不想要的选择。它不可靠,并且有很多字符串操作很脆弱,特别是当你匹配很多正则表达式时。
  4. 最后但同样重要的是,我正在寻找一种以性能为导向的解决方案,因为这是在Android客户端上完成的。

    欢迎所有建议!

0 个答案:

没有答案