Question

我正在尝试使用Apache PDFBox库从PDF文件中提取除水印文本之外的文本，因此我想首先删除水印，其余部分是我想要的。但不幸的是，PDmetadata和PDXObject都无法识别水印，任何帮助将不胜感激。我在下面找到了一些代码。

        // Open PDF document
    PDDocument document = null;
    try {
        document = PDDocument.load(PATH_TO_YOUR_DOCUMENT);
    } catch (IOException e) {
        e.printStackTrace();
    }
    // Get all pages and loop through them
    List pages = document.getDocumentCatalog().getAllPages();
    Iterator iter = pages.iterator();
    while( iter.hasNext() ) {
        PDPage page = (PDPage)iter.next();
        PDResources resources = page.getResources();            
        Map images = null;
        // Get all Images on page
        try {
            images = resources.getImages();//How to specify watermark instead of images??
        } catch (IOException e) {
            e.printStackTrace();
        }
        if( images != null ) {
            // Check all images for metadata
            Iterator imageIter = images.keySet().iterator();
            while( imageIter.hasNext() ) {
                String key = (String)imageIter.next();
                PDXObjectImage image = (PDXObjectImage)images.get( key );
                PDMetadata metadata = image.getMetadata();
                System.out.println("Found a image: Analyzing for Metadata");
                if (metadata == null) {
                    System.out.println("No Metadata found for this image.");
                } else {
                    InputStream xmlInputStream = null;
                    try {
                        xmlInputStream = metadata.createInputStream();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                    try {
                        System.out.println("--------------------------------------------------------------------------------");
                        String mystring = convertStreamToString(xmlInputStream);
                        System.out.println(mystring);
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
                // Export the images
                String name = getUniqueFileName( key, image.getSuffix() );
                    System.out.println( "Writing image:" + name );
                    try {
                        image.write2file( name );
                    } catch (IOException e) {
                        // TODO Auto-generated catch block
                        //e.printStackTrace();
                }
                System.out.println("--------------------------------------------------------------------------------");
            }
        }
    }

Answer 1

与您的假设相反，PDF中没有像显式水印对象那样识别通用PDF中的水印。

水印可以多种方式应用于PDF页面;每个PDF创建库或应用程序都有自己的方式来添加水印，有些甚至提供多种方式。

水印可以

在内容的早期绘制的任何内容（位图图形，矢量图形，文本......），因此形成了绘制其余内容的背景;
任何内容（位图图形，矢量图形，文字......）在内容的后期绘制透明度，形成透明的叠加层;
在水印注释的内容流中绘制的任何内容（位图图形，矢量图形，文本......）将用于表示应在页面上以固定大小和位置打印的图形，无论打印页面的尺寸如何（参见PDF规范ISO 32000-1的第12.5.6.2.2节）。

有时甚至使用混合形式，看一下at this answer为例，在底部你会发现在图形上方但在文本下方绘制的“水印”（以便于阅读）。

后一种选择（水印注释）显然很容易删除，但它实际上也是最不常用的选择，很可能因为它很容易去掉;应用水印的人通常不希望他们的水印迷路。此外，PDF查看器有时会错误地处理注释，而复制页面内容的代码通常会忽略注释。

另一方面，如果您不处理通用文档，而是处理特定类型的文档（所有生成的文件都相似），则应用水印的方式在它们中，可能是可以识别的，并且提取例程可能是可行的。如果您有这样的用例，请分享PDF样本进行检查。

如何识别PDF水印并使用PDFBox将其删除

1 个答案: