在我调用Tidy.parse之后,某些字符被弄乱了。两个示例是:“代替”和“而不是〜
我猜想这些肯定是来自Word或类似的东西,但是整齐地处理它们非常糟糕。具体来说,它将它们转换为变音符号的单个实体表示形式,然后在我的过程中稍后转换为无意义的垃圾。我敢肯定还有其他人,但是到目前为止,我已经找到了。是否有任何已知的方法可以预先转换它们或将它们作为整洁的一部分忽略?
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setForceOutput(true);
tidy.parse(inputStream, outputStream);
答案 0 :(得分:1)
在打印完配置后,我可以看到输入和输出编码没有像我想象的那样设置为UTF-8,所以我只需要添加以下内容:
tidy.setInputEncoding("UTF-8");
tidy.setOutputEncoding("UTF-8");