在我的代码中,我需要读取PDF文件的内容,并且根据一些特定要求,我需要将PDF的内容插入SQL Server DB。 我使用iTextsharp进行PDF阅读。当找到PDF的整行内容时,它读起来很好。 当他们在PDF中找到表格时就会出现问题。
它首先进入column1并读取该行,然后跳至column2并读取该行,依此类推。 问题是column1有段落字符串,而column2有段落字符串。它将这些段落分成没有意义的单行。
我希望它的工作方式类似于转到column1读取段落,如果它在换行符之后找到新段落,则从第二行读取该段落。 处理完column1之后,跳到colum2。
当前我正在使用以下代码:
PdfReader reader = new PdfReader(@"D:\pdf1.pdf");
int PageNum = reader.NumberOfPages;
StringBuilder text = new StringBuilder();
for (int i = 1; i <= PageNum; i++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(reader, i, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default,
Encoding.UTF8,
Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
ReadContent(text.ToString());
text.Clear();
}