如何以编程方式从java中的url列表创建索引

时间:2014-12-13 05:31:01

标签: solr lucene nutch

我想创建搜索引擎。所以我用nutch和solr来开发它。 但它无法抓取网站的每个网址,搜索结果也不如此 好像谷歌。所以我开始使用jcrawler来获取网址列表。 现在我有url列表。但我必须索引它们。 那么有什么方法可以索引在文件中逐行存储的URL列表。 并显示结果与lucene或solr或任何其他Java API

2 个答案:

答案 0 :(得分:1)

如何以编程方式执行某些操作实际上取决于您计划编写代码的语言 - 从URL中获取内容并在编制索引之前理解该内容在很大程度上取决于可用于所选编程语言的库。 / p>

你仍然可以将nutch与Solr后端一起使用 - 将url列表作为输入,并将--depth设置为1(这样它就不会进一步蜘蛛侠)。

还有其他"准备好"选项,例如Crawl Anywhere(具有Solr后端)和Scrapy

"不如Google"对于您想要实现的目标以及如何实现这一目标并不是一个很好的描述(请记住,搜索是Google的核心产品,他们拥有一套非常庞大的自定义技术来处理搜索)。如果您对自己的数据有特定的问题以及如何显示(通常您可以获得更多有用的结果,因为您对您尝试解决的任务有领域知识),请询问具体的具体问题。

答案 1 :(得分:0)

您可以使用Data Import Handler从文件中加载网址列表,然后阅读并编制索引。

您需要将 rootEntity 标志设置为false的外部实体使用嵌套实体。

你需要用DIH练习一下。因此,我建议您首先学习如何将URL导入单个Solr文档,然后通过实际解析URL内容来增强它。