用于HTML分析的Java库

时间:2010-01-27 06:24:39

标签: java html html-parsing

(我见过类似的问题,但我认为它们都不能满足我的特殊需求,因此......)

我想知道是否有用于分析现实世界(阅读:不完整,格式错误)HTML的Java库。通过分析,我的意思是:

  • 找出HTML块中最突出的颜色
  • 将该颜色更改为其他颜色(因此,也必须支持修改HTML)
  • 修剪掉不需要的标签
  • 修复HTML以生成格式正确的HTML代码段

最后两部分的部分由杰里科和jTidy等图书馆完成。 “插件”在这些之上会很棒。

提前致谢!

4 个答案:

答案 0 :(得分:4)

您可能想查看TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

答案 1 :(得分:2)

我先将它整理成有效的XML,然后使用XSLT做一个条件深度复制,我会做最突出的颜色/修剪/你需要的任何处理。

答案 2 :(得分:1)

查看JTidyHTML Tidy的Java端口。根据您选择的选项,它将修复非格式良好的HTML并以其他方式清理它。

你需要别的东西来改变颜色。

答案 3 :(得分:0)

也许你会在this list找到一些东西(试试TagSoup,NekoHTML,VietSpider HTMLParser)。