标签: java parsing html-parsing jtidy htmlcleaner
我的机器上有几百个旧的html文件,我试图解析并提取一些数据。我已经为它尝试了不同的Java解析器,包括Jsoup,Tagsoup,HTMLcleaner,JTidy等。由于html代码在文件中的方式,我只能使用支持XPATH的解析器,尝试过Jsoup但找不到等效的css选择器。
无论如何,我的问题是无论我尝试什么解析器,都要清理实际内容并将'(撇号)之类的内容转换为奇怪的字符。
所以我的问题是:是否可以使用任何Java解析器解析内容而无需整理和替换特殊字符?
提前感谢您的时间。