(我见过类似的问题,但我认为它们都不能满足我的特殊需求,因此......)
我想知道是否有用于分析现实世界(阅读:不完整,格式错误)HTML的Java库。通过分析,我的意思是:
最后两部分的部分由杰里科和jTidy等图书馆完成。 “插件”在这些之上会很棒。
提前致谢!
答案 0 :(得分:4)
您可能想查看TagSoup:
答案 1 :(得分:2)
我先将它整理成有效的XML,然后使用XSLT做一个条件深度复制,我会做最突出的颜色/修剪/你需要的任何处理。
答案 2 :(得分:1)
答案 3 :(得分:0)
也许你会在this list找到一些东西(试试TagSoup,NekoHTML,VietSpider HTMLParser)。