从右到左语言(如阿拉伯语)的文字方向如何用PDF编码?我的理解是,由于PDF基本上是一种图形格式,因此文本方向的概念不需要真正编码。相反,字形只需要从右到左画在屏幕上。但是,PDF参考手册提到了一个名为WritingMode
的属性,您可以在其中指定从左到右,从右到左,从上到下,从下到上的组合。
所以我的问题是:
(1)如果我的理解是正确的,并且RTL或LTR仅仅通过屏幕上绘制字形的方式来表示,那么WritingMode
属性的意义是什么?
(2)如果在PDF文件中没有编码的实际方向性信息,除了绘制字形的顺序之外,PDF-to-Text程序如何知道给定的行是否应该被正确读取左转或左转? (我想PDF程序只能检查从ToUnicode
映射中提取的Unicode代码点是否属于与RTL语言对应的范围。)
答案 0 :(得分:0)
如果我正确阅读规范,则WritingMode仅适用于标记PDF。如果PDF不包含适当的逻辑结构,则不会获得WritingMode。
根据我的理解,一般的答案是“它取决于”。在R-L书写中,您可能具有以字体编码的文本高级信息,并且单个文本放置将文本推进到正确的位置。我说“可能”因为可能是实际的生成软件忽略了这一点并将每个字形放在自己的位置,而不管字体中的文本前进。然后你会得到像阿拉伯语和希伯来语这样的有趣语言,它们不是R-L,因为数字在R-L行中仍然是L-R。
答案 1 :(得分:0)
文本方向将在Trm中设置