我是MySQL新手。我正在尝试使文本文档“机器可读”。我有一堆文本文档,每个文档包含一些元数据(如作者,文档编号等)。此外,文本的不同部分被标记(如标题,介绍,引用,链接等),一些标记包含元数据(如链接引用)。
我需要能够通过元数据和文本搜索数据库。此外,我需要能够只搜索文档的不同部分(介绍等)。我还需要标记文本的新部分 - 添加额外的“标记”。
我可以很容易想象如何在xml中表示这些文档,但是,由于我需要对这些文本执行复杂的查询,因此将它们存储在xml中并不是一个可行的选择。
我想找到关于如何以一种不会增加额外信息(特别是“标记”)的方式构建模式/表的基本指针。
希望关于我想要实现的目标的描述并不是太模糊。 非常感谢。
答案 0 :(得分:1)
您所描述的要求表明您所需要的不是MySQL(或任何其他供应商)关系数据库,而是Lucene索引。至少那是我用来实现类似目标的(Lucene)。
由于这个问题并不是特定的(见https://stackoverflow.com/faq#questions),我会给你一个总答案。
所以试试Solr,这是Lucene与MySQL的结合。尝试阅读本教程http://lucene.apache.org/solr/api-3_6_1/doc-files/tutorial.html