我需要整理数千个PDF文件,这些文件名称和组织严密。它们位于一个主文件夹中,但它们存储在各种子文件夹中,我无法更改该文件夹结构。
我的目标是提取所有PDF文本并将其附加到一个大文本文件中,这对以后的索引很有用。在我的文本文件中,我想在文本文件夹中找到PDF文件路径,并在每页的末尾@@@@ End of page # 1 @@@@
。
文本文件将开始:
@@@@ PDF Filepath : $thefilepath @@@@
.... text ....
.... text ....
.... text ....
@@@@ End of page # 1 @@@@
.... text ....
.... text ....
@@@@ End of page # 2 @@@@
@@@ PDF Filepath : $thenextfilepath @@@@
.... text ....
....
....
有人可以帮我一把吗?
答案 0 :(得分:1)
最明显的方法是循环浏览文件,使用 readdir 内置函数获取子文件夹和文件的名称。 对于每个文件,您使用一些Perl模块或命令行实用程序(例如CAM::PDF,Text::FromAny或 pdftotext )提取文本,并将其附加到输出文本文件中PDF文件路径和页面信息。