如何使用Apache Tika解码特殊字符

时间:2013-08-27 21:24:46

标签: java parsing ms-word apache-poi apache-tika

我正在使用 Apache Tika 将一些MS Word文档解析为HTML(字符串)。问题是某些文档包含特殊字符(例如数学运算符)。有什么方法可以解决吗?谢谢你的帮助。

输入: enter image description here

输出

enter image description here

源代码

SAXTransformerFactory.newInstance();
TransformerHandler handler = null;

try {
  handler = factory.newTransformerHandler();
} catch (TransformerConfigurationException e) {
   logger.warn(String.format("SAX Processing is not available: ", e));
   return;
}

handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "UTF-8");
handler.setResult(new StreamResult(output)); // StringWriter output

0 个答案:

没有答案