我正在开发一个抓取网上商店并查找产品的网络抓取工具。目前我只存储了最近发现的单一价格,但我也希望存储历史记录。 我正在使用MariaDB(5.3.8)和InnoDB表作为主数据库。
但是,我不确定MariaDB / MySQL可能是价格历史上最好的数据库。
我每个产品每天最多可以节省一个价格,数据保留期约为2 - 4年。 我的产品表将包含约200万行,这将使价格历史的行数一年达到约7.3亿。
这是相当多的事情,可以解释。
这些数据需要快速访问(可通过数字ID(产品ID)或SHA1哈希值识别,无论更好/更容易)。
需要保存的数据只是:
product_id,价格,日期(没时间!)
处理它的数据库软件会有很大的负担,因为INSERT会经常发生,SELECT会经常发生,如果不经常发生的话。 每隔一段时间就可以将数据聚合到另一个数据库,这样可以最大限度地减少SELECT查询,但我宁愿避免使用它,以免添加另一层“帮助脚本”。
根本不会执行任何DELETE。
你会建议什么?
答案 0 :(得分:0)
这是任何RDBMS的简单方案。只需插入1-2个索引就可以插入这个窄表中,这根本不是问题。每年730m行也完全没问题(我想知道GB数据有多大 - 可能是10-20GB?)。
您应该根据战略考虑进行选择。你已经拥有和使用哪种RDBMS?你熟悉什么?备份,高可用性怎么样?