从pdf中提取文本信息

时间:2018-05-17 18:59:14

标签: c# pdf pdfclown

如何提取文本信息,如文本位置坐标,宽度,高度和e.t.c.,??  我尝试使用' Pdf clown' 库,它对普通文本完全正常,但是,对于旋转文本(90 / -90度),它输出宽度/高度为 0 (零)。

具有(90 / -90度)的文本的缩放因子(scaleX,scaleY)分别显示为(0,0),而对于反转文本(以180度旋转),它是(-1,-1)。

我想要旋转文本的信息来突出显示它们(因为宽度值为零,我无法突出显示它们)。请帮我。我正在研究.NET环境。

我正在使用的文件: https://nofile.io/f/Kvf2DkXvfj4/edit9.pdf

代码:使用pdfclown示例中的TextInfoExtractionSample.cs

输出  (对于上面文件中的三种不同的文本对齐方式)

Text [x:283,y:104,w:126,h:-23] [font size:-24,font sytle:ArialMT]:inverted_text

Text [x:265,y:244,w:0,h:121] [font size:0,font sytle:ArialMT]:vertical_text

Text [x:347,y:131,w:0,h:167] [font size:0,font sytle:ArialMT]:vertical_minus90

0 个答案:

没有答案