应用错误收集

使用Node.js搜索PDF文本

时间：2018-08-14 18:59:04

标签： mysql node.js google-app-engine pdf pdftextstream

我有成千上万个可搜索的PDF，其中一些最大可达1GB，并包含2000多个页面。我需要能够使用Node.js应用程序在这些文件中搜索文本字符串。

现在，文件存储在Google Cloud Storage存储桶中。

执行此操作的最佳方法是什么？

一些选项：

使用NPM之类的东西将PDF文件中的文本读入MySQL 包pdf-text-extract。然后使用MySQL查询搜索文本字符串。
使用某些NPM软件包直接搜索PDF文件。

我完全离开了吗？有更好的方法吗？

1 个答案:

答案 0 :(得分：0)

那里有专用的文本搜索库，例如this one或this。您很可能需要从每个pdf中提取纯文本，然后保存并编制索引。然后，您将能够运行搜索查询。为该特定任务设置数据库可能是过大的选择。