我使用iTextSharp逐行从.pdf中提取文本,效果非常好。
我现在正在查看工程图纸,需要识别位于文件中圆圈边界内的文本行。
我的文件中可能有许多圆圈(不重叠),圆圈边界内通常有2或3行文字。
有人知道使用iTextSharp是否可行吗?
这是我现有的代码:
Try
Using reader As New PdfReader(filePath)
For intPages As Integer = 1 To reader.NumberOfPages
If intFirst = 1 Then
sbTXT.Append(Trim(PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())))
intFirst = 2
Else
sbTXT.Append(Environment.NewLine & Trim(PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())))
End If
Next
End Using
Catch ex As Exception
MsgBox("There was an error extracting text from the file", vbInformation, "Error Extracting Text")
End Try