应用错误收集

我在考虑将nutch用于抓取引擎。我需要在数据库中存储10亿个URL，其中的元数据包括＆＃34; title＆＃34;，＆＃34; description＆＃34;等，以及每个URL之间的链接。问题：

抓取逻辑必须用java编写（即Nutch不是一个选项）
当涉及20亿行
我很确定我不会使用solr重新发明轮子

我的目标是能够在互联网上映射URL之间的链接。虽然起初可能是一个小的角色，它可能会变得更多，当它发生时，我想要为现在的缩放做好准备。所以我最大的恐惧只会在一两个月内出现，但我需要知道，无论是100万行还是10亿行，我能快速获得URL之间所有链接的列表至关重要。这就是为什么我需要事先了解这将是多么可能。

SOLR是否充当MySQL与用户之间的缓冲区？如此有效，SOLR是一个索引MySQL的独立数据库。然后用户实际搜索SOLR？我假设SOLR存储的数据库是它自己的内部数据库吗？
SOLR允许我在多台服务器上扩展存储吗？加工怎么样？
SOLR允许我查看链接到其他网址的所有网址。即存储对链接到DB中任何其他URL的所有其他链接的引用吗？

Solr作为完整解决方案？

0 个答案: