我有一个html文件,文本以非unicode字体编码。我需要将该文件转换为unicode。我搜索了一个转换器。但是,大多数转换器只适用于字体列表,而不适用于所有字体。
我的字体非常具体,文字是梵文脚本。 我有文件,我有字体,现在,请建议我一个工具或技术。感谢。
答案 0 :(得分:5)
Unicode不是关于字体,而是关于编码。您需要找到一个可以将文本转换为Unicode的转换器。您的文字的编码是什么?
答案 1 :(得分:1)
Apache Tika能够通过对字体行为的了解从PDF文件中提取文本。因此,如果文件实际上是PDF,则您有机会。如果你的文本文件中没有特定编码的字体索引,那么你就有了很大的编程工作。