MongoDB富文档的全文搜索

时间:2013-09-02 07:43:22

标签: node.js mongodb full-text-search elasticsearch

我正在开发一个Node.js应用程序,它将HTML文档存储在MongoDB数据库中,并希望提供全文搜索功能。从我可以看到MongoDB中包含的全文搜索期望文档是纯文本,因此不适合索引我的html文档。这个假设是否正确,如果是这样,人们会为此推荐什么。

从阅读其他SO posts弹性搜索似乎是最常见的路径。我不能说我对将Java应用程序纳入图片感到非常高兴。还有一个完全独立的应用程序不是我理想的情况。

1 个答案:

答案 0 :(得分:1)

你可以在HTML上抛出一些正则表达式,然后自己尝试从HTML中strip the markup。输出可以由MongoDB索引。

这可能比使用ES或Solr这样的搜索工具(这里确实超出范围)更容易开发,但它不会让你走得太远:简单地剥离HTML意味着上下文信息丢失,无效的HTML会导致麻烦。