SO如何实施标记搜索?它是否使用Lucene或任何其他开源搜索引擎库进行标记搜索?
搜索文档(PDF,XML,HTML,MS Word)或数据库的最佳方法是什么?
答案 0 :(得分:1)
搜索标签与搜索文本非常不同。标记搜索正在搜索关联,其中问题都与特定标记相关联。这可以使用全文引擎实现,其中标记全部附加在单个大条目中,但关系数据库在这种情况下可能是最好的(假设标记数据在关系数据库中开始)。
要搜索其他文档,如PDF,XLS,HTML,那么您需要像Lucene这样的全文。您需要一个解析器,它只能从每个源中提取相关文本(即,从标记中单独显示文本)。
答案 1 :(得分:0)
所以,是的,它正在使用Lucene.NET,虽然我不确定如何。 “最好”的方式是一个完整的'其他故事。
答案 2 :(得分:0)
最后一次讨论(在播客上),提到Stackoverflow使用SQL Server的全文搜索功能,而不是Lucene。
答案 3 :(得分:0)
所以不使用Lucene。
如果您想索引文档并运行Windows,那么IFilters将是我的首选。