逐行阅读PDF - iTextSharp

时间:2017-04-17 04:04:03

标签: vb.net itext

我不确定我的代码有什么问题。它读取PDF文件,并抓取所有文本,但每个项目合并为一个字符串,没有任何类型的分隔符。

样品:

“房屋:2

卧室:3

Bathsroom 4“

将被理解为“Houses:2Bedrooms:3Bathsroom 4”

我搜索了所有的例子都无济于事。我也尝试过LocationTextExtractionStrategy无济于事。我尝试过使用.split方法而没有帮助。

Public Shared Function ParseAllPdfText(ByVal filepath As String) 
    Dim sbtxt, currenttext As String

    sbtxt = ""
    Try

        Using reader As New PdfReader(filepath)

            For intPages As Integer = 1 To reader.NumberOfPages

                currenttext = PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())
                currenttext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currenttext)))
                sbtxt = sbtxt & currenttext & vbcrlf

            Next

        End Using

    Catch ex As Exception
        MsgBox(" There was an error extracting text from the file: " & ex.Message, vbInformation, "Error Extracting Text")

    End Try
    Return sbtxt

1 个答案:

答案 0 :(得分:0)

没关系,这是我的疏忽。我意识到线条被Chr(10)分开。 Chr(10)不会在文本框中创建一个新行,这是我输出字符串的地方。然而,它确实在MsgBox中创建了一个新行。因此,如果其他人遇到此问题,chr(10)就是分隔符。 : - )