我正在构建一个搜索引擎,我完成了第一个阶段,即抓取(获取html文档并解析每个文档以获取其他链接)。现在我必须索引html文档的内容。首先,我决定使用DBMS(如SQL Server),但我找到了另一个名为Lucene.NET的库。
lucene.NET和SQL Server有什么区别,哪个更好用于索引html文档?我读了很多关于Lucene.Net的内容,我感到惊讶的是它提供了比SQL Server更好的性能。任何人都可以向我解释一下吗?
答案 0 :(得分:2)
SQL Server是一个通用的RDBMS,不针对非常快速的文本索引进行了优化(是的,它具有全文索引,但它同时还有许多其他内容)。
Lucene.NET不是RDBMS,它的主要功能是快速文本索引。
并不奇怪它比SQL Server更好。