使用iTextSharp在.pdf文件中提取/识别圆圈内的文本

时间:2017-02-07 14:52:37

标签: vb.net pdf itext adobe

我使用iTextSharp逐行从.pdf中提取文本,效果非常好。

我现在正在查看工程图纸,需要识别位于文件中圆圈边界内的文本行。

enter image description here

我的文件中可能有许多圆圈(不重叠),圆圈边界内通常有2或3行文字。

有人知道使用iTextSharp是否可行吗?

这是我现有的代码:

Try

Using reader As New PdfReader(filePath)

    For intPages As Integer = 1 To reader.NumberOfPages
        If intFirst = 1 Then
            sbTXT.Append(Trim(PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())))
            intFirst = 2
        Else
            sbTXT.Append(Environment.NewLine & Trim(PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())))
        End If
    Next

End Using

Catch ex As Exception
MsgBox("There was an error extracting text from the file", vbInformation, "Error Extracting Text")

End Try

0 个答案:

没有答案