索引PDF文件并生成关键字摘要

时间:2016-08-18 20:54:32

标签: perl pdf indexing swish

我在本地文件系统中有大量PDF文件,我用作文档库,我想创建这些文件的索引。 我想:

  1. 解析PDF文件的内容以获取关键字。
  2. 选择最相关的关键字进行摘要。
  3. 为某些关键字创建静态HTML页面,其中的条目链接到相应的文件。
  4. 我的问题是:

    • 是否有现成的工具来执行整个工作?
    • 什么是解析PDF文件内容,过滤(按字大小)和计算单词的最合适的工具?
    • 我考虑使用Perlswish-epdfgrep制作脚本。你知道其他可能有用的工具吗?

1 个答案:

答案 0 :(得分:2)

鉴于第2点和第3点似乎是自定义的,我建议您拥有自己的脚本,使用其中的工具来解析pdf,根据需要处理其输出,并编写HTML(可能使用其他工具)。

Perl非常适合这种情况,因为它擅长处理您需要的处理,并且还支持通过模块处理各种文件格式。

至于阅读pdf,如果您的需求不太复杂,可以选择以下选项

最后两个是您通过Perl内置函数system使用的外部工具。

以下文本处理,用于构建摘要和设计输出,正是像Perl这样的语言。提到的几个任务需要几行代码。

然后直接写出HTML,如果简单或使用合适的模块。鉴于您的目的,您可能需要查看HTML::Template。另请参阅this post,例如。

完全解析PDF可能是不可行的,但如果文件不是太复杂,它应该可以工作。

如果您选择关键字和构建统计信息的流程相当普遍,则可以使用集成的文档管理工具(搜索参考书目管理器)。但是,我认为他们中的大多数都使用外部工具来解析pdf,因此您可能仍然可以使用自己的脚本。