PdfBox - 在提取的文本中编码

时间:2014-06-12 15:11:36

标签: c# pdf encoding pdfbox

某些PDF包含带有"奇怪"的文字。编码。 例如。那里http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf 如果我在acrobat阅读器中复制文本并粘贴到某个地方,我就不会得到与我看到的相同的字符。 PdfBox在提取此文本时也存在问题。

我的问题是如何在PdfBox中检测到某些字体正在使用这个"奇怪的"编码?我不需要解码它们只能检测。

0 个答案:

没有答案