tldr:如何将pdf文件夹转换为CMYK值列表(或RGB或任何类型的色阶值),最好是在python中。
我有一个大约有100,000个文件的文件夹。为了更容易地对这些文档进行采样,我想对文档进行数据分析(聚类和异常检测),我想要的一个指标是CMYK覆盖。 (优选地)python中是否有任何方法或包可以计算PDF的CMYK覆盖范围?
**** ****编辑
经过一些研究后我发现GhostScript应该提供我需要的功能,如果有人能帮我实现,我仍然会非常感激。
答案 0 :(得分:1)
./gs -sDEVICE=inkcov -sOutputFile=out.txt input.pdf
应该在文件中为每个页面提供CMYK覆盖。
您可以使用-dQUIET -o -
代替-sOutputFile
将输出发送到stdout。
然后,您需要一些批处理脚本,这取决于您的操作系统。在Windows上类似于:
for %s in (folder/*.pdf) do gswin64c -dQUIET -sDEVICE=inkcov -o - "%s" >> coverage.txt
应该从文件夹中获取每个文件,通过inkcov设备运行它并将输出发送到stdout,我们将其重定向到文件并使用>>
以便每次执行都附加到文件而不是覆盖文件以前的输出。
每次运行后都需要删除输出文件。