我在本地文件系统中有大量PDF文件,我用作文档库,我想创建这些文件的索引。 我想:
我的问题是:
Perl
,swish-e
,pdfgrep
制作脚本。你知道其他可能有用的工具吗? 答案 0 :(得分:2)
鉴于第2点和第3点似乎是自定义的,我建议您拥有自己的脚本,使用其中的工具来解析pdf,根据需要处理其输出,并编写HTML(可能使用其他工具)。
Perl非常适合这种情况,因为它擅长处理您需要的处理,并且还支持通过模块处理各种文件格式。
至于阅读pdf
,如果您的需求不太复杂,可以选择以下选项
使用poppler
库中的pdftotext
(可能在poppler-utils
包中)
将pdftohtml
与-xml
选项一起使用,使用XML::libXML
或XML::Twig
最后两个是您通过Perl内置函数system
使用的外部工具。
以下文本处理,用于构建摘要和设计输出,正是像Perl这样的语言。提到的几个任务需要几行代码。
然后直接写出HTML,如果简单或使用合适的模块。鉴于您的目的,您可能需要查看HTML::Template
。另请参阅this post
,例如。
完全解析PDF可能是不可行的,但如果文件不是太复杂,它应该可以工作。
如果您选择关键字和构建统计信息的流程相当普遍,则可以使用集成的文档管理工具(搜索参考书目管理器)。但是,我认为他们中的大多数都使用外部工具来解析pdf
,因此您可能仍然可以使用自己的脚本。