已爬网页面语义的数据库选择

时间:2017-03-31 19:14:29

标签: database web-crawler in-memory-database nosql

我不确定过去是否已经提出过这个问题。 我正在编写一个webcrawler,旨在从多个网站中提取有关促销,价格和产品说明的信息。

基于来自多个网站的同一产品的识别,哪种数据库选择对于促销和价格数据的内存比较是理想的。

我知道Scraper,HTMLDataProcessor和Storage for wrangling的设计会很复杂。但是,我正在寻找数据层选择的解决方案。

感谢对此的帮助。

1 个答案:

答案 0 :(得分:0)

我建议您首先为所有实体创建对象模型或实体关系图。(a.k.a ER图)

例如,您可以在此处查看教程:http://creately.com/blog/diagrams/er-diagrams-tutorial/

获得实体之间的关系图和关系后,您可以选择是否需要关系数据库。

您需要回答以下问题:

  1. 您是否关心FK(外键)约束?

  2. 最常见的查询是什么,你关心它的表现吗?

  3. 内存数据库是否足够,或者您是否需要保留数据?

  4. 按照这些思路思考。