我正在使用CGPDFScanner来扫描pdf。我应该使用Td运算符来查找文本的位置吗?我可以举例说明如何使用此运算符来获取文本的位置吗?目前我已经使用Tj和TJ运算符来查找文本。现在我想知道pdf的单页中每个单词的位置。我怎样才能做到这一点?
由于
答案 0 :(得分:1)
看看这个图书馆: https://github.com/KurtCode/PDFKitten/ 搜索并突出显示文字
答案 1 :(得分:0)
要获取文本的坐标,您需要跟踪文本转换矩阵。请参见PDF 1.4参考的第5.3.1节“文本定位运算符”。 (我不确定参考编号的后续版本是否相同或不同。)虽然Td
运算符将在文本矩阵中设置当前翻译,但还有其他运算符会影响文本矩阵和其他文本国家,也是。您需要在处理文件时跟踪文本矩阵。 Tm
运算符将直接设置文本矩阵。 TD
运算符移动到下一行,并通过x和y参数进行偏移。 T*
只是移到下一行。