Question

我不确定我的代码有什么问题。它读取PDF文件，并抓取所有文本，但每个项目合并为一个字符串，没有任何类型的分隔符。

样品：

“房屋：2

卧室：3

Bathsroom 4“

将被理解为“Houses：2Bedrooms：3Bathsroom 4”

我搜索了所有的例子都无济于事。我也尝试过LocationTextExtractionStrategy无济于事。我尝试过使用.split方法而没有帮助。

Public Shared Function ParseAllPdfText(ByVal filepath As String) 
    Dim sbtxt, currenttext As String

    sbtxt = ""
    Try

        Using reader As New PdfReader(filepath)

            For intPages As Integer = 1 To reader.NumberOfPages

                currenttext = PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())
                currenttext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currenttext)))
                sbtxt = sbtxt & currenttext & vbcrlf

            Next

        End Using

    Catch ex As Exception
        MsgBox(" There was an error extracting text from the file: " & ex.Message, vbInformation, "Error Extracting Text")

    End Try
    Return sbtxt

Answer 1

没关系，这是我的疏忽。我意识到线条被Chr（10）分开。 Chr（10）不会在文本框中创建一个新行，这是我输出字符串的地方。然而，它确实在MsgBox中创建了一个新行。因此，如果其他人遇到此问题，chr（10）就是分隔符。： - ）

逐行阅读PDF - iTextSharp

1 个答案: