搜索PDF文本并使用Node.js返回代码段

时间:2019-01-08 16:00:19

标签: mysql node.js pdf elasticsearch google-cloud-platform

我有大约200万个可文本搜索的PDF文件。我需要能够在它们中搜索用户的查询,并返回摘要和文件名。前端是一个Node.js React应用程序。

现在,我可以使用pdfjs-dist(https://github.com/mozilla/pdfjs-dist)将PDF内容读取到MySQL数据库中。然后使用全文MATCH ... AGAINST查询来搜索文本。但是,这很尴尬,拥有200万个PDF确实很慢。而且,会定期添加新文件,因此将PDF读入SQL也会占用大量资源。

有更好的解决方案吗? Elasticsearch是一个好的解决方案吗?

该项目托管在Google Cloud(App Engine和Cloud SQL)上。有Google工具可以做到这一点吗?

1 个答案:

答案 0 :(得分:1)

是的,我想说Elasticsearch是索引PDF并在以后搜索它的好工具。

有一个ingest attachment processor plugin,可以从常见格式(PDF,TXT,DOC等)中提取数据并将其编入Elasticsearch,以便以后可以搜索。

Google Cloud具有Elasticsearch cluster plugin,可以简化集成。还有Elasticsearch service in the Google Cloud得到了广泛的支持。