xml - 我们应该从XML文件迁移到数据库吗？

我们应该从XML文件迁移到数据库吗？

时间：2011-11-09 10:31:45

标签： xml database architecture full-text-search

我们有一个持久存在XML文件的应用程序。除了一个大型XML文件（其作用类似于其他文件的索引）之外，所有其他文件都存储在单独的文件夹中并且非常小（它们主要包含有关文档的元数据（即视频/ pdf等））。

从关系的角度来看，除了与物理存储在磁盘上的文档（即，通过目录路径）相关联的元数据之外，数据/对象之间没有太多的关系。所以所有数据都与文档相关联。

除了搜索XML索引文件外，所有其他搜索都是通过“Windows索引搜索”完成的。

虽然系统将来会用于单个用户，但它将更改为多个用户，这意味着索引文件将有多个用户同时更新它。此文件可能会变得非常大（10,000个条目，其中每个条目包含一些元数据和对磁盘上文档的引用）

另一个要求是在不同的机器上有多个索引文件，每个机器都管理自己的文档存储库。现在这意味着搜索/浏览我们必须在多台机器上搜索的内容。

考虑到这一切，我发现拥有一个数据库可以解决一些问题，但是有很多工作要进入我们必须解决问题的阶段（即创建一个ORM模型，数据库，存储库），命令等）。

我的一个或多个问题是否可以通过其他方式解决其中一些问题，而无需通过数据库路线？

TIA JD

2 个答案:

答案 0 :(得分：2)

您可以尝试使用本机XML数据库来加速XML处理。我已经使用Berkeley DB XML（嵌入式，库）和eXist（联网，客户端 - 服务器，REST）取得了一些成功。特别是，前者解决了用单个索引文件替换散落在各处的大量小型XML文件的问题，因此它可能会替换您的XML索引文件。后者通过Lucene进行全文搜索。

答案 1 :(得分：2)

听起来好像你的工作量肯定是朝着需要数据库的方向发展。由于数据已经是所有XML，因此迁移到本机XML数据库应该是破坏性最小的路由。如今，流行的产品往往是MarkLogic，如果你能负担得起，那么如果你不能，那就是eXist。（我对两者都不感兴趣，但知道两者的满意用户。）