存档大量类似文档的服务

时间:2013-02-02 16:54:48

标签: php mysql database

我想建立一种存档服务。我的想法是,我向服务发送一个文档(几十个KB的HTML),它向我发回一个简短的标识符,稍后我可以使用标识符来检索文档。许多文件彼此非常相似;对于任何一个文档,可能有1000个其他文档与它重叠95%。因此,每次我发送文档时,归档服务都应该尝试找到类似的文档,并存储差异。

是否存在这样的系统?如果可能的话,我更喜欢基于PH​​P / MySQL的东西。

1 个答案:

答案 0 :(得分:0)

从您的用例中可以想到CouchDB。了解他们如何将文档存储为JSON以及如何对文档进行修订(存储在_rev字段中)。

http://guide.couchdb.org/draft/documents.html

然而,它不会对你进行比较。使用简单的CouchDB实现,您将承担这一责任,但它确实很适合您处理版本。

不幸的是,我不知道任何开箱即用的数据库比较文档,然后找到相似的东西并替换它们。