确定PDF是否可搜索

时间:2018-03-01 04:20:33

标签: c# pdf ocr ghostscript

如果PDF是可搜索的,如何以编程方式确定/验证,是否扫描pdf。我知道有些问题是相同的,但有些问题没有得到正确解答

  if (openPdfFileDialog.ShowDialog() == System.Windows.Forms.DialogResult.OK)
        {
            string strfilename = openPdfFileDialog.FileName;
            pdfImageBox.Enabled = true;
            btnSave.Enabled = true;
            txt_Save.Enabled = true;
            btnAdd.Enabled = true;
            txtOcr1.Enabled = true;
            this.OpenPDF(openPdfFileDialog.FileName);
            ext.Text = strfilename;
            txt_Save.Text = ext.Text;

        }

1 个答案:

答案 0 :(得分:2)

如果PDF文档仅包含扫描图像,则其中不会包含任何文本。我们可以从PDF文档中提取文本并检查它是否返回空字符串然后我们可以得出结论它是扫描的PDF https://help.syncfusion.com/file-formats/pdf/working-with-text-extraction

假设您的可搜索PDF中没有图像,那么您可以进行图像提取。如果存在图像,则PDF文档具有扫描图像 https://help.syncfusion.com/file-formats/pdf/working-with-image-extraction

注意:我为Syncfusion工作。