我不确定我的代码有什么问题。它读取PDF文件,并抓取所有文本,但每个项目合并为一个字符串,没有任何类型的分隔符。
样品:
“房屋:2
卧室:3
Bathsroom 4“
将被理解为“Houses:2Bedrooms:3Bathsroom 4”
我搜索了所有的例子都无济于事。我也尝试过LocationTextExtractionStrategy无济于事。我尝试过使用.split方法而没有帮助。
Public Shared Function ParseAllPdfText(ByVal filepath As String)
Dim sbtxt, currenttext As String
sbtxt = ""
Try
Using reader As New PdfReader(filepath)
For intPages As Integer = 1 To reader.NumberOfPages
currenttext = PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())
currenttext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currenttext)))
sbtxt = sbtxt & currenttext & vbcrlf
Next
End Using
Catch ex As Exception
MsgBox(" There was an error extracting text from the file: " & ex.Message, vbInformation, "Error Extracting Text")
End Try
Return sbtxt
答案 0 :(得分:0)
没关系,这是我的疏忽。我意识到线条被Chr(10)分开。 Chr(10)不会在文本框中创建一个新行,这是我输出字符串的地方。然而,它确实在MsgBox中创建了一个新行。因此,如果其他人遇到此问题,chr(10)就是分隔符。 : - )