我试图在一个简单的http网站上建立一个“网站搜索”。
我有一个网站,我们称之为www.mycompany.com,这是纯粹的HTML。
是否有一种简单的方法可以使用solr索引整个网站,以使用solr作为引擎来构建全文搜索?
我google了一下,找不到任何具体的类型: 做一个 做B ... 利润!
让我也知道我对Solr的内容是否有点偏执:P
提前致谢。
答案 0 :(得分:6)
Solr仅用于索引和搜索文本,它没有爬虫,因为它超出了项目的范围。
但请查看Nutch,这是一个抓取工具,最初设置起来并不太难。
Nutch和Solr can be integrated如果你需要一些特定于Solr的功能来搜索索引。
答案 1 :(得分:4)
dir_id
这会做一个网站的基本索引,但它不是最好的。如果你想要简单,那就是它。它可以做到。
我认为这只适用于solr 5 +。
答案 2 :(得分:1)
您可能希望查看的其他两个选项是Crawl Anywhere和Heritrix