我查看了一些Java HtmlParser(Jericho,HtmlCLeaner,...),但是我找不到一个功能,当检索页面时会用实际的源代码替换html frame标签。
有没有人知道这样做的任何解析器?
答案:
像Phani所说,我需要一个Html Scraper(不是解析器,更清洁)HtmlUnit似乎可以解决问题:http://htmlunit.sourceforge.net/frame-howto.html
答案 0 :(得分:0)
从您的使用案例中,您需要刮刀而不是清洁工。
清洁剂 - 通常很脏,形状错误,不适合进一步加工。对于任何严重消费此类文件,有必要首先清理混乱并将订单带到标签,属性和普通文本。
Scraper - 以编程方式阅读页面并编辑html页面。