切片PDF文档

时间:2013-09-23 06:50:12

标签: c# pdf

如何在c#中切片pdf文件..这是我的切片代码,但切片总大小后切片10 MB的pdf文件是20 MB如何在切片时减少切片文件???请给出一个很好的切片和压缩方法

public int ExtractPages(string sourcePdfPath)
    {
        int p = 0;
        try
        {
            iTextSharp.text.Document document;
            iTextSharp.text.pdf.PdfReader reader = new        iTextSharp.text.pdf.PdfReader(new iTextSharp.text.pdf.RandomAccessFileOrArray(sourcePdfPath), new ASCIIEncoding().GetBytes(""));
            if (!Directory.Exists(sourcePdfPath.ToLower().Replace(".pdf", "")))
            {
                Directory.CreateDirectory(sourcePdfPath.ToLower().Replace(".pdf", ""));
            }
            else
            {
                Directory.Delete(sourcePdfPath.ToLower().Replace(".pdf", ""), true);
                Directory.CreateDirectory(sourcePdfPath.ToLower().Replace(".pdf", ""));
            }

            for (p = 1; p <= reader.NumberOfPages; p++)
            {
                using (MemoryStream memoryStream = new MemoryStream())
                {
                    document = new iTextSharp.text.Document();
                    iTextSharp.text.pdf.PdfWriter writer = iTextSharp.text.pdf.PdfWriter.GetInstance(document, memoryStream);
                    writer.SetPdfVersion(iTextSharp.text.pdf.PdfWriter.PDF_VERSION_1_2);
                    writer.CompressionLevel = iTextSharp.text.pdf.PdfStream.BEST_COMPRESSION;
                    writer.SetFullCompression();
                    document.SetPageSize(reader.GetPageSize(p));
                    document.NewPage();
                    document.Open();
                    document.AddDocListener(writer);
                    iTextSharp.text.pdf.PdfContentByte cb = writer.DirectContent;
                    iTextSharp.text.pdf.PdfImportedPage pageImport = writer.GetImportedPage(reader, p);
                    int rot = reader.GetPageRotation(p);
                    if (rot == 90 || rot == 270)
                    {
                        cb.AddTemplate(pageImport, 0, -1.0F, 1.0F, 0, 0, reader.GetPageSizeWithRotation(p).Height);
                    }
                    else
                    {
                        cb.AddTemplate(pageImport, 1.0F, 0, 0, 1.0F, 0, 0);
                    }
                    document.Close();
                    document.Dispose();
                    File.WriteAllBytes(sourcePdfPath.ToLower().Replace(".pdf", "") + "/" + p + ".pdf", memoryStream.ToArray());
                }
            }
            reader.Close();
            reader.Dispose();
        }
        catch
        {
        }
        finally
        {
            GC.Collect();
        }
        return p - 1;

1 个答案:

答案 0 :(得分:0)

PDF以资源概念运作。文档中的任何大型内存消耗对象通常被认为是可以跨文档共享的资源。可共享资源的类型是字体,图像,页面模板(表单 - 不是AcroForms),颜色空间,图形状态对象,模式和过程集。如果我在第1,2,3和4页上使用字体Basketball Oververetended,则只需要在文件中嵌入1份Basketball Overextended。

当您将文档分成4个不同的页面时,iText将完全按照您的要求执行操作:将字体嵌入到每个文件中。

由于字体通常较大,因此这是您的文件看起来膨胀的最可能原因。

如果您希望您的文档在任何地方正确呈现,这是正确的做法。

这并不是说没有选择。例如,如果iText足够聪明,它可能能够为每个页面生成字体子集 - 换句话说,分析您的字体用法并仅嵌入实际使用的字体部分。

您也可以完全删除字体嵌入。只要您保留指标和字体描述符,Acrobat就会非常努力地为您生成等效字体,如果在目标系统上可用,则使用正确的字体,但如果文档使用深奥字体,那么祝你好运 - 您的最终用户将看到一个看起来完全错误的文档。