在数据库中存储已爬网站点的最佳解决方案

时间:2011-12-27 14:34:15

标签: database postgresql nosql web-crawler

我想存储在db抓取的网站(html代码)中。网站将是数百万。我将在那些网站上搜索特殊字符串。

现在我正在使用PostrgreSQL,但我怀疑关系数据库是否合适。也许是NoSQL的一些灵魂?

你推荐什么灵魂?

2 个答案:

答案 0 :(得分:1)

我已经成功地将Apache Nutch用于同样的目的(抓取,存储和搜索数百万个站点)。它基于Lucene并且可以扩展(感谢Hadoop)。

开箱即用的工作。

http://nutch.apache.org/

http://lucene.apache.org/

答案 1 :(得分:-1)

获取网页后,您需要从网页中截取额外的宝贵信息(广告,不相关的文字,...)。使用此策略,您将减少应存储在数据库中的页面大小,并为搜索结果提供更多相关信息。

我建议您创建一个程序并提取有价值的信息并将其存储在数据库中(如果您不需要原始页面)之后,您可以在上面创建一个lucene库来搜索您的信息

如果您想要更准确的信息,您可以分析您的页面并存储一些规则(内容方向,类别,外部资源资源的链接,有价值的信息到所有文本速率......),以便为您的页面创建排名是文本挖掘技术。