HTML解析器,无需整理源代码

时间:2012-08-23 09:59:58

标签: java parsing html-parsing jtidy htmlcleaner

我的机器上有几百个旧的html文件,我试图解析并提取一些数据。我已经为它尝试了不同的Java解析器,包括Jsoup,Tagsoup,HTMLcleaner,JTidy等。由于html代码在文件中的方式,我只能使用支持XPATH的解析器,尝试过Jsoup但找不到等效的css选择器。

无论如何,我的问题是无论我尝试什么解析器,都要清理实际内容并将'(撇号)之类的内容转换为奇怪的字符。

所以我的问题是:是否可以使用任何Java解析器解析内容而无需整理和替换特殊字符?

提前感谢您的时间。

0 个答案:

没有答案