以编程方式将扫描仪创建的PDF拆分为单独的PDF文档

时间:2008-12-03 17:46:29

标签: c# .net vb.net pdf adobe

我有来自扫描仪的PDF文档。此PDF包含由工作人员填写并签署一天工作的表格。我想在每种表单类型上放置OCR文本的条形码或标准区域,以便批处理扫描可以按照表单类型以编程方式拆分为单独的PDF文档。

我想在Microsoft .net 2.0

中执行此操作

如果没有开源名称空间/ dll可用,我可以购买需要Adobe或其他名称空间/ dll来完成任务。

6 个答案:

答案 0 :(得分:2)

不是免费或开源选项,但您也可以将ABCPdf by webSuperGoo视为Adobe的另一种选择。

答案 1 :(得分:1)

您可以研究iTextSharp库,它可以分割pdf文件。 但是阅读实际的pdf并不是很好。所以我不知道怎么知道在哪里拆分它们。

有些公司已经为您做到了这一点。 您可以研究kwiktag公司。

答案 2 :(得分:1)

iTextSharp将帮助您将条形码拆分,重新组合并应用于.NET语言的pdf。我不认为它可以OCR文件,但我没有看(我使用Abby精细读取器引擎)。

答案 3 :(得分:1)

从你问题的标题我假设你只需要拆分PDF文件并且它们已经是OCR了。有一些开源.NET PDF库。我已经在我自己的项目中成功使用了PDFSharp

这是一个快速摘录,展示了如何使用PDFSharp从PDF文档中剔除每个页面:

string filePath = @"c:\file.pdf";

using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly))
{
    int i = 1;
    foreach (PdfPage page in ipdf.Pages)
    {
        using (PdfDocument opdf = new PdfDocument())
        {
            opdf.Version = ipdf.Version;
            opdf.AddPage(page);

            opdf.Save("page " + i++ + ".pdf");
        }
    }
}

假设您还需要访问文档中的文本进行分组,您可以使用PdfPage.Contents属性。

答案 4 :(得分:0)

查看c ++ ocr引擎周围的Tesseract .NET wrapper (v 2.04.0)与hp在90年代后期开发的相同名称,它凭借其独创性赢得了奖项

答案 5 :(得分:0)

你可以使用几种,试试这些免费工具: