标签: sorting pdf ocr batch-processing
我有数以千计的pdf,这些pdf基本上是来自20130121.00005.pdf等标题的供应商的采购订单。由于同一公司的文件夹中有多个采购订单,因此我希望根据供应商对文件进行分组。 pdfs是OCRed所以我在想如果我能提取pdf的前几行并使用该文本重命名pdf,我就可以单独根据标题对pdfs进行分组。这可能是用简单的脚本或类似的东西吗?我不是一个开发人员。谢谢你的帮助。