Question

我有一个全文MySQL查询，它运行得相当好 - 除了在某些情况下我最终得到重复结果的事实。我有几种类型的数据，我试图搜索：建筑物，套房，资产等，每个都在自己的表中。每种类型的数据也可以具有用户定义的自定义字段，其数据存储在不同的表中。这是我的结构。

CREATE TABLE `buildings` (
 `bid` int(11) NOT NULL AUTO_INCREMENT,
 `name` varchar(250) COLLATE utf8_unicode_ci NOT NULL,
 `status` enum('active','inactive') COLLATE utf8_unicode_ci NOT NULL,
 `source` enum('feed','manual') COLLATE utf8_unicode_ci NOT NULL,
 PRIMARY KEY (`bid`),
 FULLTEXT KEY `textsearch` (`name`)
)

CREATE TABLE `customfields` (
 `cfid` int(11) NOT NULL AUTO_INCREMENT,
 `name` varchar(250) COLLATE utf8_unicode_ci NOT NULL,
 `datatype` enum('integer','date','smtext','lgtext','numeric','enum','linked') COLLATE utf8_unicode_ci NOT NULL,
 `options` longtext COLLATE utf8_unicode_ci,
 `did` int(11) NOT NULL COMMENT 'Datasheet ID',
 PRIMARY KEY (`cfid`),
 KEY `did` (`did`)
)

CREATE TABLE `customfield_data` (
 `cfdid` int(11) NOT NULL AUTO_INCREMENT,
 `data_int` int(11) DEFAULT NULL,
 `data_date` datetime DEFAULT NULL,
 `data_smtext` varchar(1000) COLLATE utf8_unicode_ci DEFAULT NULL,
 `data_lgtext` longtext COLLATE utf8_unicode_ci,
 `data_numeric` decimal(20,2) DEFAULT NULL,
 `linkid` int(11) DEFAULT NULL COMMENT 'ID value of specific item',
 `cfid` int(11) NOT NULL COMMENT 'Custom field ID',
 PRIMARY KEY (`cfdid`),
 KEY `data_smtext` (`data_smtext`(333)),
 KEY `linkid` (`linkid`),
 KEY `cfid` (`cfid`),
 FULLTEXT KEY `textsearch` (`data_smtext`,`data_lgtext`)
)

如此有效，建筑物可以有一个自定义字段，用于将其实际数据存储在customfield_data中。通过did（数据集ID）将自定义字段标识为特定于建筑物的字段。然后，cfid字段将customfield_data链接到自定义字段，并使用linkid字段将数据链接到特定建筑物。

考虑到这一点，这是我的全文查询：

SELECT * FROM (
  SELECT (data_smtext + data_lgtext) AS data, linkid AS idvalue, did, MATCH(data_smtext, data_lgtext) AGAINST (?) AS relevance
  FROM customfield_data
  JOIN customfields ON customfield_data.cfid = customfields.cfid
  WHERE MATCH (data_smtext, data_lgtext) AGAINST (? IN BOOLEAN MODE)
  UNION
  SELECT name AS data, bid AS idvalue, 2 AS did, 3 * (MATCH(name) AGAINST (?)) AS relevance
  FROM buildings
  WHERE status = ? AND MATCH (name) AGAINST (? IN BOOLEAN MODE)
  UNION
  SELECT name AS data, bid AS idvalue, 2 AS did, 100 AS relevance
  FROM buildings
  WHERE bid LIKE ? AND status = ?
  UNION
  )
AS searchresults
WHERE relevance > 0
ORDER BY relevance DESC

正如我前面提到的，这一切都正常。我遇到的问题是，例如，如果建筑物名为 123 North Ave Tower，并且它有一个123 North Ave的地址（customfield），然后我得到重复的记录 - 一个用于名称，一个用于地址，如果我搜索“123 North Ave”。

他们都指向相同的did（数据集ID）和linkid（在这种情况下是建筑ID），所以我知道我可以通过在PHP中循环生成的数组，寻找匹配来解决我的问题，抛弃重复。但这会给我带来性能影响，也会降低相关性得分的效果。理想情况下，我希望能够让查询将地址匹配的相关性添加到名称/ ID匹配的相关性，以便为我提供更准确的分数。现在我将名称匹配乘以3x并将自定义字段匹配保留为1x，以便更加精确地加权更准确的匹配，但添加两者将是最佳选择。

感谢任何能指出我正确方向的人！

Answer 1

我没有这个特定问题的解决方案，但是我通过安装和配置Sphinx解决了这个问题并让它做了我的肮脏工作。

Answer 2

使用group by的主张是好的。要获得正确的结果，您需要在select子句中对相关性求和。

 sum ( match ( ... ) against (?)) as relevance

任何结合全文查询结果的方法

2 个答案: