搜索或索引XML文件

时间:2013-01-23 15:51:07

标签: xml full-text-search scalability

我在一家新闻网站工作,将所有故事都存储为XML。我知道,不是最好的方式,但事实就是如此。我要做的是让搜索网站上的XML文件成为可能。目前,我们的搜索功能全部采用Google技术支持(仅搜索Google已抓取的内容)。

我正在考虑的是使用Grep,这种工作正常,但可能不会扩展太多。另一个需要花费更多工作但更好地工作的选择是将部分XML存储在关系数据库中。

鉴于我们的后端设置方式,迁移到不同的存储模型需要很长时间,所以暂时,这是我们必须使用的。想法?

3 个答案:

答案 0 :(得分:3)

添加一些缓存可能会帮助您扩展grep的想法。但是,您可能会考虑一种解决方案,它不仅可以帮助解决当前的问题,而且还可以让您在明天更接近更好的解决方案。也许设计一个更好的解决方案并随着时间的推移逐个实现它就可以解决问题。

答案 1 :(得分:1)

我还建议使用像BaseX(.org)这样的XML数据库系统,因为它非常快。我建议将每篇文章存储在一个单独的文件中。 BaseX支持XQuery 3.0以及全文,更新工具......

答案 2 :(得分:0)

如果您致力于使用XML,我建议使用原生XML数据库解决方案,如Berkeley DBXML或eXist-db。它们都允许你向它们发射xqueries。 eXist还实现了DBXML没有的全文搜索,但后者在检索数据方面更快。