使用Node.js搜索PDF文本

时间:2018-08-14 18:59:04

标签: mysql node.js google-app-engine pdf pdftextstream

我有成千上万个可搜索的PDF,其中一些最大可达1GB,并包含2000多个页面。我需要能够使用Node.js应用程序在这些文件中搜索文本字符串。

现在,文件存储在Google Cloud Storage存储桶中。

执行此操作的最佳方法是什么?

一些选项:

  • 使用NPM之类的东西将PDF文件中的文本读入MySQL 包pdf-text-extract。然后使用MySQL查询搜索文本 字符串。
  • 使用某些NPM软件包直接搜索PDF文件。

我完全离开了吗?有更好的方法吗?

1 个答案:

答案 0 :(得分:0)

那里有专用的文本搜索库,例如this onethis。您很可能需要从每个pdf中提取纯文本,然后保存并编制索引。然后,您将能够运行搜索查询。为该特定任务设置数据库可能是过大的选择。