我们已经建立了一个使用Lucene.NET进行搜索的网站。我们最近已经整合了另一个网站,以便形成一个用户的视角,这两个网站似乎只是一个网站! (我们分享主页等)
我们遇到的问题是两个网站托管在不同的位置。因此,当Lucene.NET抓取第一个网站时,它不会选择第二个网站的内容。我们想从第二个网站中提取内容,并将其放在为第一个网站构建的相同索引文件中。
如何让Lucene.NET也能抓取外部网站?
谢谢
答案 0 :(得分:0)
如果您具有对第二个系统的文件系统访问权限,则可以通过提供路径进行索引。如果没有,您将需要编写一个爬虫,您可以从使用HttpWebRequest的基本内容开始,或者通过使用some tools使用链接等递归抓取网站来获得更高级别。