Solr作为完整解决方案?

时间:2014-11-06 07:29:33

标签: java solr web-crawler

我在考虑将nutch用于抓取引擎。我需要在数据库中存储10亿个URL,其中的元数据包括" title"," description"等,以及每个URL之间的链接。问题:

  • 抓取逻辑必须用java编写(即Nutch不是一个选项)
  • 当涉及20亿行
  • 时,mysql对于搜索目的来说太慢了
  • 我很确定我不会使用solr重新发明轮子

我的目标是能够在互联网上映射URL之间的链接。虽然起初可能是一个小的角色,它可能会变得更多,当它发生时,我想要为现在的缩放做好准备。所以我最大的恐惧只会在一两个月内出现,但我需要知道,无论是100万行还是10亿行,我能快速获得URL之间所有链接的列表至关重要。这就是为什么我需要事先了解这将是多么可能。

  1. SOLR是否充当MySQL与用户之间的缓冲区?如此有效,SOLR是一个索引MySQL的独立数据库。然后用户实际搜索SOLR?我假设SOLR存储的数据库是它自己的内部数据库吗?
  2. SOLR允许我在多台服务器上扩展存储吗?加工怎么样?
  3. SOLR允许我查看链接到其他网址的所有网址。即存储对链接到DB中任何其他URL的所有其他链接的引用吗?

0 个答案:

没有答案