我不确定过去是否已经提出过这个问题。 我正在编写一个webcrawler,旨在从多个网站中提取有关促销,价格和产品说明的信息。
基于来自多个网站的同一产品的识别,哪种数据库选择对于促销和价格数据的内存比较是理想的。
我知道Scraper,HTMLDataProcessor和Storage for wrangling的设计会很复杂。但是,我正在寻找数据层选择的解决方案。
感谢对此的帮助。
答案 0 :(得分:0)
我建议您首先为所有实体创建对象模型或实体关系图。(a.k.a ER图)
例如,您可以在此处查看教程:http://creately.com/blog/diagrams/er-diagrams-tutorial/
获得实体之间的关系图和关系后,您可以选择是否需要关系数据库。
您需要回答以下问题:
您是否关心FK(外键)约束?
最常见的查询是什么,你关心它的表现吗?
内存数据库是否足够,或者您是否需要保留数据?
按照这些思路思考。