如何使用c#从.pdf文件中提取标题

时间:2010-11-15 16:37:28

标签: c# pdf

我知道对于Python这样的解决方案已经存在(http://pybrary.net/pyPdf/)。但我希望有人可以为这个问题建议一些c#库。

5 个答案:

答案 0 :(得分:2)

在.NET中操作PDF文件的常用库是iTextSharp,它是iText库的一个端口。这是一个例子:

class Program
{
    static void Main()
    {
        PdfReader reader = new PdfReader("test.pdf");
        var title = reader.Info["Title"];
        Console.WriteLine(title);
    }
}

答案 1 :(得分:2)

Docotic.Pdf library(免责声明:我为公司工作)可能用于完成任务。

my answer查看similar question

除此之外,图书馆当然可以做很多其他事情。

答案 2 :(得分:1)

这个怎么样:

http://glenswords.wordpress.com/2007/07/16/extract-the-title-of-a-pdf-using-c/

答案 3 :(得分:0)

iTextSharp的另一种替代方案是PDFBOX。有关使用它的说明,请参阅CodeProject Tutorial。这有点难看,因为你基本上运行的是C#Java VM,但它实际上非常容易使用。

答案 4 :(得分:0)

如果“标题”是指PDF预告片中元数据中的标题关键字,那么您可以使用许多不同的工具。 iTextSharp会这样做,虽然我不太了解API以便为您提供代码。

如果你使用dotImage,来自Atalasoft(我工作的地方,顺便说一下,我写了这段代码),你可以这样做:

PdfDocumentMetadata metadata  = PdfDocumentMetadata.FromStream(sourceStream);
Console.WriteLine("Title is \"{0}\"", metadata.Title);

此课程还为您提供作者,主题,关键字,创作者,制作人,CreationDate,ModificationDate,Trapped和自定义字段。

如果您正在谈论在PDF中嵌入XMP中找到标题 - 那么,这完全是一个不同的野兽,我还没有支持将其拉出来。