使用Lexer和HTMLParser仅构建符合特定条件的节点

时间:2014-05-29 15:48:07

标签: java html-parsing lexer

我正在解析大量文档,这些文档无法解析批量或构建到DOM中。但是,某些div节点包含我想要构建到DOM的一部分并从那里进行分析的信息。理想情况下,我会使用轻量级Lexer(我正在使用htmlparser.org,因为这是我能够找到的唯一Java Lexer),当我看到感兴趣的节点时,构建它节点

使用这些技术是否有一种干净的方法可以做到这一点?我没有找到任何方法来解析除文本或URL之外的资源 - 但我想也许可以手动设置词法分析器。一个问题是解析器中的setLexer改变了Lexer(它会影响*整个文档的解析),我认为这是因为该类的编写者不知道有更好的语言来编写混淆的代码。比Java。知道怎么把这些放在一起吗?

0 个答案:

没有答案