我在考虑将nutch用于抓取引擎。我需要在数据库中存储10亿个URL,其中的元数据包括" title"," description"等,以及每个URL之间的链接。问题:
我的目标是能够在互联网上映射URL之间的链接。虽然起初可能是一个小的角色,它可能会变得更多,当它发生时,我想要为现在的缩放做好准备。所以我最大的恐惧只会在一两个月内出现,但我需要知道,无论是100万行还是10亿行,我能快速获得URL之间所有链接的列表至关重要。这就是为什么我需要事先了解这将是多么可能。