标签: mysql node.js google-app-engine pdf pdftextstream
我有成千上万个可搜索的PDF,其中一些最大可达1GB,并包含2000多个页面。我需要能够使用Node.js应用程序在这些文件中搜索文本字符串。
现在,文件存储在Google Cloud Storage存储桶中。
执行此操作的最佳方法是什么?
一些选项:
pdf-text-extract
我完全离开了吗?有更好的方法吗?
答案 0 :(得分:0)
那里有专用的文本搜索库,例如this one或this。您很可能需要从每个pdf中提取纯文本,然后保存并编制索引。然后,您将能够运行搜索查询。为该特定任务设置数据库可能是过大的选择。