database - 在数据库中存储已爬网站点的最佳解决方案

时间：2011-12-27 14:34:15

标签： database postgresql nosql web-crawler

我想存储在db抓取的网站（html代码）中。网站将是数百万。我将在那些网站上搜索特殊字符串。

现在我正在使用PostrgreSQL，但我怀疑关系数据库是否合适。也许是NoSQL的一些灵魂？

你推荐什么灵魂？

答案 0 :(得分：1)

我已经成功地将Apache Nutch用于同样的目的（抓取，存储和搜索数百万个站点）。它基于Lucene并且可以扩展（感谢Hadoop）。

开箱即用的工作。

答案 1 :(得分：-1)

获取网页后，您需要从网页中截取额外的宝贵信息（广告，不相关的文字，...）。使用此策略，您将减少应存储在数据库中的页面大小，并为搜索结果提供更多相关信息。

我建议您创建一个程序并提取有价值的信息并将其存储在数据库中（如果您不需要原始页面）之后，您可以在上面创建一个lucene库来搜索您的信息

如果您想要更准确的信息，您可以分析您的页面并存储一些规则（内容方向，类别，外部资源资源的链接，有价值的信息到所有文本速率......），以便为您的页面创建排名是文本挖掘技术。