我正在创建一个用于从多个网址抓取链接的工具。我想存储这些信息,然后测试已删除链接的状态。
我期待必须测试很多链接,大约60,000个。所以我遇到的问题是决定如何存储测试链接。
我正在考虑做的是为我将要抓取的网址创建文本文件。我将不得不为我要抓取的URL创建大约40个文本文件(我正在抓取的URL是相同的URL,只是区域化的。)
答案 0 :(得分:1)
imho最简单的方法是使用serialization来保存您的信息。例如,序列化Map<String, Set<String>>
个网址。多个文件也应该工作,没有任何严重的性能影响。但实施时间稍长一些
另一种方法 - 在mongolab上注册并使用免费帐户。 (这不是广告,我只是喜欢这个服务)你不需要安装任何东西,只需下载mongo驱动程序并继续