从互联网存储文章以供将来搜索的最佳方法

时间:2019-04-18 03:57:19

标签: database postgresql

每天我访问该网站,并将您所有的文本内容保存到某个数据库中。

我要保存的站点之一是505 kb,请问有什么方法可以通过减小大小而又不丢失数据的方式保存在数据库中?

保存的信息必须可用于搜索关键字,因此我可以查找以前日期保存的内容。

使用nosql库会是更好的方法吗?

1 个答案:

答案 0 :(得分:0)

Elasticsearch很适合您描述的内容,可用作分布式文本搜索引擎。

您还问过“在不丢失数据的情况下减小大小?”这是lossless coompression,它对内存非常友好,但是可能会限制您实际执行搜索的能力,因为这可能需要先对每个字符串进行解压缩,而这本身就是一个O(N)操作,可以有效地消除该点。

您还提到了NoSQL存储与关系数据库。这是正确的想法,但可能仍不完全匹配。与NoSQL存储相关的是Redis,它是内存中的键值存储。但是,Redis通常用于查找,即“我给您一个URL;您给我返回与该URL相关联的缓存页面HTML”。这不能完全描述您的情况及其特殊性,这可能不太适合Redis模型。同样,Elasticsearch可能是一个不错的起点。