Question

我需要整理数千个PDF文件，这些文件名称和组织严密。它们位于一个主文件夹中，但它们存储在各种子文件夹中，我无法更改该文件夹结构。

我的目标是提取所有PDF文本并将其附加到一个大文本文件中，这对以后的索引很有用。在我的文本文件中，我想在文本文件夹中找到PDF文件路径，并在每页的末尾@@@@ End of page # 1 @@@@。

文本文件将开始：

@@@@ PDF Filepath : $thefilepath @@@@
.... text ....
.... text ....
.... text ....
@@@@ End of page # 1 @@@@
.... text ....
.... text ....
@@@@ End of page # 2 @@@@
@@@ PDF Filepath : $thenextfilepath @@@@
.... text ....
....
....

有人可以帮我一把吗？

Answer 1

最明显的方法是循环浏览文件，使用 readdir 内置函数获取子文件夹和文件的名称。对于每个文件，您使用一些Perl模块或命令行实用程序（例如CAM::PDF，Text::FromAny或 pdftotext ）提取文本，并将其附加到输出文本文件中PDF文件路径和页面信息。

如何从子文件夹中包含的许多PDF文件中提取文本？

1 个答案: