我有一个侧面项目,我有大约1000个仅文本的PDF文件(平均大小约500 kb),我想在哪个数据集上进行快速自由文本搜索。搜索结果至少应该告诉匹配的文本,PDF文件包含匹配的文本以及PDF中的位置。
这个项目听起来像云托管弹性搜索的好候选人吗?或者这对于这个数据大小是否有点过分?我应该和Apache Lucene一起把它放在我自己的网络服务器上吗?或者完全不同的东西?
我还想在这个功能面前放置一个用户界面。我不是UI开发人员,我们的团队真的缺乏UI专业知识。
您能否建议一些在Rest API端点前生成UI的NoUI框架?有这样的事吗?
我们的语言偏好是这个团队中的python作为公约数。
答案 0 :(得分:2)
我建立了一个申请人跟踪系统,其中包含超过20,000个简历,最适合您的方法是ElasticSearch,因为:
- 性能非常高
- 搜索的准确率为100%
- 使用最简单的API非常容易
- 易于使用副本进行备份
醇>
我建议使用ElasticSearch亚马逊服务ES。
关于UI框架,我只使用JavaScript FineUploader,这使得我对分块和并行上传有很多帮助。