我在C#中创建了一个应用程序,它使用 iTextsharp 从PDF中提取文本,但是某些PDF不包含任何文本并且只包含图像。因此没有从这些PDF中提取文本&#39 ;我想跟踪成千上万的其他PDF文件,并想检查这些PDF并记录下来。我可以这样做吗?我已经搜索了一些关于堆栈溢出的类似问题但是找不到任何合适的解决方案。
PdfReader reader = new PdfReader(DataBytes);
Pages = reader.NumberOfPages;
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
reader.Close();
return output.toString();