在数据库mysql中存储和检索同义词的最佳方法

时间:2010-10-20 04:00:30

标签: mysql synonym

我正在创建一个同义词列表,我将它存储在数据库中并在进行全文搜索之前检索它。

当用户输入如下:word1

我需要在我的同义词表中查找这个单词。所以如果找到这个单词,我会选择这个单词的所有同义词,并在下一个查询的全文搜索中使用它来构建查询,如

MATCH(columnname)AGAINST((word1a word1b word1c)在BOOLEAN MODE中)

那么如何将同义词存储在表中?我找到了两个选择:

  1. 使用

    等关键字和单词列
    val  keyword
    -------------
    1    word1a
    1    word1b
    1    word1c
    2    word2a
    2    word2b
    3    word3a
    etc.
    
  2. 那么我可以在一个查询中找到输入单词的完全匹配并找到它的ID。在下一个选择中,我获得具有该ID的所有单词,并以某种方式使用服务器端语言中的记录集循环来连接它们。然后,我可以在主表上构建我需要查找单词的真实搜索。

    1. 仅使用

      等字词列
      word1a|word1b|word1c
      word2a|word2b|word2c
      word3a
      
    2. 现在我是SELECT语言,如果它在任何记录中,如果是,则提取所有记录并将其分解为|我再次说出我可以使用的话。

      第二种方法看起来更易于维护这个同义词数据库的人,但我看到了两个问题:

      a)如果字符串中有单词,我如何在mysql中找到?我不能像'word1a'那样,因为synonims可能非常相似,word1a可能是strowberry,strowberries可能是鸟类,而2a可能是浆果。显然我需要精确匹配,那么LIKE语句如何在字符串中完全匹配?

      b)我看到速度问题,使用LIKE我猜想使用第一种方法比“=”采用更多的mysql,我完全匹配一个单词。另一方面,在第一个选项中,我需要2个语句,一个用于获取单词的ID,第二个用于获取具有此ID的所有单词。

      你将如何解决这个问题,更多的是采取何种方法的困境?有没有第三种方式我没有看到管理员很容易添加/编辑同义词,同时快速和最佳?好的我知道通常没有最好的方法; - )

      更新:使用两个表一个用于主词,第二个用于同义词的解决方案在我的情况下不起作用。因为我没有用户在搜索字段中输入的MASTER字样。他可以在字段中键入任何同义词,所以我仍然想知道如何设置这个表,因为我没有主要单词,我将在一个表中具有ID,并且在第二个表中与主单元的ID同步。没有主词。

3 个答案:

答案 0 :(得分:10)

不要使用(一个)字符串来存储不同的条目。

换句话说:构建一个单词表(word_ID,单词)和一个同义词表(word_ID,synonym_ID),然后将单词添加到单词表中,并将每个同义词的一个条目添加到同义词表中。

更新 (已添加第3个同义词)

你的单词表必须包含每个单词(ALL),你的同义词表只保存指向同义词的指针(不是单个单词!)..

如果您有三个单词:A,B和C,它们是同义词,那么您的数据库将是

WORD_TABLE            SYNONYM_TABLE
ID | WORD             W_ID | S_ID
---+-----             -----+-------
1  | A                  1  |  2
2  | B                  2  |  1
3  | C                  1  |  3
                        3  |  1
                        2  |  3
                        3  |  2  

不要害怕SYNONYM_TABLE中的许多条目,它们将由计算机管理,并且需要反映单词之间的现有关系。



第二种方法

您可能也会受到诱惑(我认为您不应该!)与一个具有单独的单词字段和同义词(或ID)列表的表(word_id,word,synonym_list)。请注意,这与关系数据库的工作方式相反(一个字段,一个事实)。

答案 1 :(得分:7)

我认为3列只有一个表更好 WORD_TABLE

ID | WORD | GroupID
---+----------------
1  |  A   |   1
2  |  B   |   1
3  |  C   |   1

答案 2 :(得分:3)

另一种方法是存储意义(这不是使用主词,而是使用分组的意义表)

将单词存储在单词表中,不包含同义词,只包含文本,如下所示:

很多单词,一个含义

meaning_table

meaning_id
---
1
2
3

并将单词存储在另一个表中,例如,如果A,B和C都是1的同义词

word_table

word_id | meaning_id | word
--------+------------+------
1       |  1         |   A
2       |  1         |   B
3       |  1         |   C

即使它看起来很像Hasan Amin Sarand所暗示的,但它有一个关键的区别,你没有从WORD_TABLE中选择,而是从MEANING_TABLE中选择,这是更好的,我学到了很难的方法

通过这种方式,您可以将意义存储在一个表格中,并将该意义存储在另一个表格中。“/ p>

虽然它假定每个单词有1个含义。

许多词,很多含义

如果您想存储具有多种含义的单词,那么您需要另一个表来表示多对多的关系,整个事情就变成了:

meaning_table
-------------
meaning_id
-------------
1
2
3

word_meaning_table
--------------------
word_id | meaning_id
--------+-----------
1       |  1         
2       |  1        
3       |  1         

word_table
--------------
word_id | word
--------+-----
1       |   A
2       |   B
3       |   C

现在你可以拥有尽可能多的含义的词,任何词都可以表达你想要的任何词,任何意义都可以有很多词。

如果你想选择一个单词并且它是同义词,那么你可以

SELECT 
meaning_id,word_id,word
FROM meaning_table 
INNER JOIN word_meaning_table USING (meaning_id)
INNER JOIN word_table USING (meaning_id)
WHERE meaning_id=1

然后你也可以存储没有单词或你不知道单词的含义。

如果你不知道它属于什么意思,那么你可以为每个新单词插入一个新的含义,然后在word_table中修复meaning_id。

然后,您甚至可以存储和选择相同但意味着不同的词语

SELECT 
meaning_id,word_id,word
FROM meaning_table 
INNER JOIN word_meaning_table USING (meaning_id)
INNER JOIN word_table USING (meaning_id)
WHERE word_id=1