我从pdf中提取了希腊语文本,它给出了HTML输出: μεταξ~ 最后一个字符是旧希腊字体的位置。 这里的有趣的点是,如果我在MS-word中查看它并选择最后一个字符 “OldGreekRoman”字体现在可以查看原始形式。
令我感到困惑。请帮助。
我需要最后一个角色的原始unicode
答案 0 :(得分:3)
虽然这在这里偏离主题并且应该转移到其他地方,但是我无法抗拒用有关上下文的给定信息来回答这个问题的诱惑,这是关于无效的,最可能的答案是SMALL TILDE字符是结果字母U + 03CD GREEK SMALL LETTER UPSILON与TONOS,“ύ”的一些字符。原因是“μεταξύ”是一个真正的希腊词。
答案 1 :(得分:1)
问题中的字符序列:
μεταξ~
是:
最后一个角色不是特定的希腊语。
这假设字符被正确地复制并粘贴到您的问题中。
答案 2 :(得分:1)
没有原始 Unicode:该字符最初是符号字体中的自定义字形。它没有语义含义 - 就像字母'A'看起来像Wingdings中的和平标志。
字形应该是什么样的?可能有也可能没有表示相同字母的Unicode字符。它可能可以创建从“OldGreekRoman”字体中的符号到Unicode等价物的映射,或者字体可以用于Unicode中不存在的字符;如果没有该字体的副本,我无法分辨。
答案 3 :(得分:1)
从原始pdf 复制角色并将其粘贴到this web app,您将看到unicode代码点是什么。