搜索数百个HTML文件

时间:2012-12-06 13:55:26

标签: c# html search full-text-search

我不知道如何开始解决这个问题所以任何建议都会有所帮助。

我的客户端有许多静态HTML页面,这些页面运行成数百个文件。这些不时更新,并在网站上被覆盖。我们通过简单的左侧浏览器在网站上列出这些页面,模仿这些文件提供给我们的文件夹结构。

我们现在希望能够搜索这些文件并显示匹配结果。通过如此大量的文件进行粗暴搜索将非常耗时。匹配相关词(例如复数,拼写错误等)也是可取的。按流行度顺序显示结果将是一个有用的功能。我不知道如何开始这个。我们应该在每次更新后预处理html文件吗? .NET中提供的任何推荐的索引库?使用C#在网站上进行了少量编程。

由于 MS

3 个答案:

答案 0 :(得分:2)

Lucene.net可能会引起人们的兴趣。

答案 1 :(得分:1)

我首先编写一个简单的程序,将所有这些文件内容传输到数据库。然后,您可以正确实现搜索,而无需每次都读取所有文件。

答案 2 :(得分:0)

我不确定它是否符合您的预算,但Google可以按照用户1161318指出的那样为您完成。

尝试使用Google网站搜索 - http://www.google.co.uk/enterprise/search/products_gss.html