使用iTextSharp提取PDF文档的ID

时间:2015-10-21 07:36:39

标签: c# asp.net pdf itextsharp

我需要提取文档预告片部分中提到的PDF标识符。但我无法获得这个价值。 例如。我的pdf文件中提到了以下内容:

trailer
<</Size 196/Prev 370761/Root 160 0 R/Info 158 0 R/ID[<30EB7FCBB6756E461176FBBD0CEBA7B9><DB67D6D43AE0FA4FBF8CC171FC66790A>]>>

我需要提取值30EB7FCBB6756E461176FBBD0CEBA7B9。使用PdfReader.Trailer我得到一个字典类型的对象,如果一个键为“ID”但我无法从中获得上述所需值。

1 个答案:

答案 0 :(得分:3)

  

使用PdfReader.Trailer如果一个键为&#39; ID&#39;但是我无法从中获得上述要求的价值。

看着PdfReader.Trailer你几乎就在那里:

public PdfArray GetId(string FileName)
{
    using (PdfReader pdfReader = new PdfReader(FileName))
    {
        return pdfReader.Trailer.GetAsArray(PdfName.ID);
    }
}

此方法返回文档的ID,即两个字节字符串的数组。

您似乎对ID的十六进制表示感兴趣。您可以这样输出:

public void PrintId(PdfArray Id)
{
    if (Id != null)
    {
        StringBuilder builder = new StringBuilder();
        builder.Append("ID: ");
        foreach (PdfObject o in Id)
        {
            builder.Append("<");
            foreach (byte b in ((PdfString)o).GetBytes())
                builder.AppendFormat("{0:X}", b);
            builder.Append(">");
        }
        Console.WriteLine(builder.ToString());
    }
}

(我对.Net并不十分熟练,因此可能有更多优雅的方法来创建字节数组的十六进制转储。)