JSOUP HTML Parser

时间:2013-11-26 10:51:18

标签: java html html-parsing jsoup

有没有办法让开始行&列号结束行&元素/标签的列号

我正在创建HTML编辑器,需要通过给定的开始和结束行& amp;来强调基于某些场景的速度优化标记。列号

1 个答案:

答案 0 :(得分:1)

不,不幸的是,目前jsoup无法做到这一点。

  

目前Jsoup没有跟踪行号/字符位置   在解析时,所以无法提取它们。因为这不是一个   核心用例,我不想扩展内存要求了   DOM保留这些数据。我想过可能会添加一个   在解析过程中可选的侧通道方式跟踪它,类似   如何跟踪解析错误,但没有关注   实现它。

来源:https://groups.google.com/forum/#!topic/jsoup/lnbYSIZApWw

相反,您可以尝试Jericho HTML Parser。在其功能列表中,它说:

  

源文档中每个位置的行号和列号   容易到达。

请参阅javadocs here并查看getRow()getColumn()getRowColumnVector()等方法。