使用Java HTML Parser检索框架源代码?

时间:2012-04-12 09:15:23

标签: java html-parsing

我查看了一些Java HtmlParser(Jericho,HtmlCLeaner,...),但是我找不到一个功能,当检索页面时会用实际的源代码替换html frame标签。

有没有人知道这样做的任何解析器?

答案:

像Phani所说,我需要一个Html Scraper(不是解析器,更清洁)

HtmlUnit似乎可以解决问题:http://htmlunit.sourceforge.net/frame-howto.html

1 个答案:

答案 0 :(得分:0)

从您的使用案例中,您需要刮刀而不是清洁工。

清洁剂 - 通常很脏,形状错误,不适合进一步加工。对于任何严重消费此类文件,有必要首先清理混乱并将订单带到标签,属性和普通文本。

Scraper - 以编程方式阅读页面并编辑html页面。

http://sourceforge.net/projects/htmlscraper/