在PDF中查找某些文本,然后将找到的页码返回到另一个部分注意:使用Docotic.pdf

时间:2013-03-01 15:28:17

标签: c# .net

在以下代码中,用户将输入搜索字符串(barcodedata)。然后该字符串将被截断为前5个字符,并用作作业编号。 jobnumber,也是我将扫描barcodedata的pdf的名称。

我想要的是“找到它”按钮来执行下面的代码,然后将找到的值返回给startpagedata。

我无法判断程序是否实际上没有扫描PDF搜索字符串,或者该值是否只是没有返回到程序。

using BitMiracle.Docotic.Pdf;
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Diagnostics;
using System.IO;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Web;
using System.Windows.Forms;
using Acrobat;

namespace BarCodeReader
{
    public partial class Form1 : Form
    {
        public string stringsToFind;
        public string pathtofile;

        public Form1()
        {
            InitializeComponent();
        }

        private void barcodedata_TextChanged(object sender, EventArgs e)
        {
            stringsToFind=barcodedata.Text;
            pathtofile = "C:\\" + StringTool.Truncate(barcodedata.Text, 5) + ".pdf";
            jobnumberdata.Text = StringTool.Truncate(barcodedata.Text, 5);
        }

        private void label4_Click(object sender, EventArgs e)
        {

        }

        private void jobnumberdata_TextChanged(object sender, EventArgs e)
        {
            jobnumberdata.Text = jobnumberdata.Text.TrimStart('0');
            Console.WriteLine(jobnumberdata.Text);
        }

        private void startpagedata_TextChanged(object sender, EventArgs e)
        {
            Console.WriteLine(startpagedata.Text);
        }

        private void piecesdata_TextChanged(object sender, EventArgs e)
        {
        }

        private void FindIt_Click(object sender, EventArgs e)
        {
            PdfDocument pdf = new PdfDocument(pathtofile);
            for (int i = 0; i < pdf.Pages.Count; i++)
            {
                string pageText = pdf.Pages[i].GetText();
                int count = 0;
                int lastStartIndex = pageText.IndexOf(stringsToFind, 0, StringComparison.CurrentCultureIgnoreCase);
                while (lastStartIndex != -1)
                {
                    count++;
                    lastStartIndex = pageText.IndexOf(stringsToFind, lastStartIndex + 1, StringComparison.CurrentCultureIgnoreCase);
                }

                if (count != 0)
                    startpagedata.Text = Convert.ToString(lastStartIndex);
            }

        }
    }

    public static class StringTool
    {
        /// <summary>
        /// Get a substring of the first N characters.
        /// </summary>
        public static string Truncate(string source, int length)
        {
            if (source.Length > length)
            {
                source = source.Substring(0, length);
            }
            return source;
        }

        /// <summary>
        /// Get a substring of the first N characters. [Slow]
        /// </summary>
        public static string Truncate2(string source, int length)
        {
            return source.Substring(0, Math.Min(length, source.Length));
        }
    }
}

2 个答案:

答案 0 :(得分:1)

这段代码有什么问题?如果点击时没有执行FindIt_Click,那么您可能不会将其与&#34; Find it&#34;按钮。

FindIt_Click中的代码看起来非常正确,除了以下几点:

  • 它可能无法达到您的预期。它返回找到搜索字符串的最后一页文本中的最后一个索引。但您可能希望找到搜索字符串的最后一页的索引
  • 您可以使用pageText.LastIndexOf方法快速查找 lastStartIndex
  • 别忘了Dispose PdfDocument实例。例如。使用使用关键字:
    using (PdfDocument pdf = new PdfDocument(pathtofile))
    {
    ...
    }

答案 1 :(得分:0)

要使用Docotic.pdf,您可以使用Acrobat.dll查找当前页码。首先打开pdf文件并使用

搜索字符串
Acroavdoc.open("Filepath","Temperory title") 

Acroavdoc.FindText("String").

如果在此pdf文件中找到该字符串,则光标移动到特定页面,并且将突出显示搜索到的字符串。现在我们使用Acroavpageview.GetPageNum()来获取当前页码。

Dim AcroXAVDoc As CAcroAVDoc
Dim Acroavpage As AcroAVPageView
Dim AcroXApp As CAcroApp

AcroXAVDoc = CType(CreateObject("AcroExch.AVDoc"), Acrobat.CAcroAVDoc)
AcroXApp = CType(CreateObject("AcroExch.App"), Acrobat.CAcroApp)

AcroXAVDoc.Open("File path", "Original document")
AcroXAVDoc.FindText("String is to searched", True, True, False)

Acroavpage = AcroXAVDoc.GetAVPageView()

Dim x As Integer = Acroavpage.GetPageNum
MsgBox("the string found in page number" & x)