应用错误收集

我的机器上有几百个旧的html文件，我试图解析并提取一些数据。我已经为它尝试了不同的Java解析器，包括Jsoup，Tagsoup，HTMLcleaner，JTidy等。由于html代码在文件中的方式，我只能使用支持XPATH的解析器，尝试过Jsoup但找不到等效的css选择器。

无论如何，我的问题是无论我尝试什么解析器，都要清理实际内容并将'（撇号）之类的内容转换为奇怪的字符。

所以我的问题是：是否可以使用任何Java解析器解析内容而无需整理和替换特殊字符？

提前感谢您的时间。