应用错误收集

使用Java HTML Parser检索框架源代码？

时间：2012-04-12 09:15:23

标签： java html-parsing

我查看了一些Java HtmlParser（Jericho，HtmlCLeaner，...），但是我找不到一个功能，当检索页面时会用实际的源代码替换html frame标签。

有没有人知道这样做的任何解析器？

答案：

像Phani所说，我需要一个Html Scraper（不是解析器，更清洁）

HtmlUnit似乎可以解决问题：http://htmlunit.sourceforge.net/frame-howto.html

1 个答案:

答案 0 :(得分：0)

从您的使用案例中，您需要刮刀而不是清洁工。

清洁剂 - 通常很脏，形状错误，不适合进一步加工。对于任何严重消费此类文件，有必要首先清理混乱并将订单带到标签，属性和普通文本。

Scraper - 以编程方式阅读页面并编辑html页面。

http://sourceforge.net/projects/htmlscraper/