Question

我有来自扫描仪的PDF文档。此PDF包含由工作人员填写并签署一天工作的表格。我想在每种表单类型上放置OCR文本的条形码或标准区域，以便批处理扫描可以按照表单类型以编程方式拆分为单独的PDF文档。

我想在Microsoft .net 2.0

中执行此操作

如果没有开源名称空间/ dll可用，我可以购买需要Adobe或其他名称空间/ dll来完成任务。

Answer 1

不是免费或开源选项，但您也可以将ABCPdf by webSuperGoo视为Adobe的另一种选择。

Answer 2

您可以研究iTextSharp库，它可以分割pdf文件。但是阅读实际的pdf并不是很好。所以我不知道怎么知道在哪里拆分它们。

有些公司已经为您做到了这一点。您可以研究kwiktag公司。

Answer 3

iTextSharp将帮助您将条形码拆分，重新组合并应用于.NET语言的pdf。我不认为它可以OCR文件，但我没有看（我使用Abby精细读取器引擎）。

Answer 4

从你问题的标题我假设你只需要拆分PDF文件并且它们已经是OCR了。有一些开源.NET PDF库。我已经在我自己的项目中成功使用了PDFSharp。

这是一个快速摘录，展示了如何使用PDFSharp从PDF文档中剔除每个页面：

string filePath = @"c:\file.pdf";

using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly))
{
    int i = 1;
    foreach (PdfPage page in ipdf.Pages)
    {
        using (PdfDocument opdf = new PdfDocument())
        {
            opdf.Version = ipdf.Version;
            opdf.AddPage(page);

            opdf.Save("page " + i++ + ".pdf");
        }
    }
}

假设您还需要访问文档中的文本进行分组，您可以使用PdfPage.Contents属性。

Answer 5

查看c ++ ocr引擎周围的Tesseract .NET wrapper (v 2.04.0)与hp在90年代后期开发的相同名称，它凭借其独创性赢得了奖项

Answer 6

你可以使用几种，试试这些免费工具：

以编程方式将扫描仪创建的PDF拆分为单独的PDF文档

6 个答案: