我正在使用OCRing PDF进行一些工作,我很好奇是否有办法检查是否已从Word(或Google Docs)导出PDF。我可以检查PDF是否已使用Xpdf的pdffonts进行了OCR。我知道Word和Google Docs会自动对导出的PDF进行OCR,所以如果我发现PDF没有进行OCR。我知道它还没有出口。但是,如果它已被OCR,有没有办法检查PDF是从Word / Google Docs VS导出,只是OCRd与Tesseract这样的程序?具体来说,我在使用JavaScript,但任何信息都很有用。
答案 0 :(得分:0)
对于任何看这个的人,我现在正在做的是使用带有-meta标志的pdfinfo(来自Xpdf)来检查PDF是否具有XMP元数据。从Word和Google Docs导出的PDF没有此元数据,但其他PDF文件也是如此。