这个问题与SQL Server's FTS ContainsTable有关。
要复制此问题,我们可以使用下面的脚本创建一个表并用地址填充。
CREATE TABLE Address (FullAddress nvarchar(100) NOT NULL);
CREATE UNIQUE CLUSTERED INDEX AddressKey ON Address(FullAddress);
INSERT INTO Address VALUES ('1 OLD YONGE ST, AURORA, ON');
INSERT INTO Address VALUES ('1 OLD YONGE ST, NORTH YORK, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 1, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 10, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('18 YONGE ST UNIT 324, TORONTO, ON');
INSERT INTO Address VALUES ('10415 YONGE ST UNIT 1, RICHMOND HILL, ON');
INSERT INTO Address VALUES ('11211 YONGE ST UNIT 37 BUILDING A, RICHMOND HILL, ON');
现在我们将创建全文目录并在其上创建索引。
CREATE FULLTEXT CATALOG AddressCat;
CREATE FULLTEXT INDEX ON Address(FullAddress) KEY INDEX AddressKey ON AddressCat;
问题
如果我们运行查询并搜索以 1 开头的地址(注意这是一个数字)而 1 是NEAR
下一个字词这是 Yong ,我们期望它返回上面的所有前4个记录。这是查询:
SELECT * FROM CONTAINSTABLE (Address, FullAddress, '"1" NEAR "Yon*"') ORDER BY RANK DESC;
但是,它不返回任何行。 这就是问题。
但是如果我们执行带有两位数的查询,例如 11 或 10 ,那么它将按预期返回记录。
问题:
为什么ContainsTable
不会返回任何单位数搜索结果?
答案 0 :(得分:2)
查找问题的原因
我尝试了很多方法,例如将查询更改为:
SELECT * FROM CONTAINSTABLE (Address, FullAddress, 'NEAR((1, YONGE), 5, TRUE)')
-- or this
SELECT * FROM CONTAINSTABLE (Address, FullAddress, '1 YON*')
但没有任何运气。
经过一些网上搜索,我开始思考(因为问题只发生在一位数上),这可能与Stopwords有关:
<强>停用词即可。禁用词可以是具有特定语言含义的词。例如,在英语中,诸如“a”,“and”,“is”和“the”之类的词语被排除在全文索引之外,因为已知它们对于搜索是无用的。禁用词也可以是没有语言意义的令牌。
然后在SO Answer的帮助下,我能够弄清楚SQL Server如何解释我的搜索。以下是查询和查询结果:
select * from sys.dm_fts_parser('"1" NEAR "Yon*"',2057, 0, 0)
请注意搜索字词 1 如何被视为 Noise 。这就是问题所在。然后运行this query帮助我找到所有的噪音词,确定 0-9 的数字都在那里:
SELECT ssw.*, ssw.stopword, slg.name
FROM sys.fulltext_system_stopwords ssw
JOIN sys.fulltext_languages slg
ON slg.lcid = ssw.language_id
WHERE slg.lcid = 1033 -- English
<强>解决方案强>
一种解决方案是从干扰词中删除单个数字。但我找不到怎么做。实际上,在我的情况下,无论如何我都不会想到,因为我系统的用户只会搜索地址,所以如果他们输入是或 ,我不希望系统将其视为噪音,因为他们可能正在搜索以开头的街道。
我使用下面的查询完全删除了停止列表,现在一切都按预期工作:
ALTER FULLTEXT INDEX ON [Address] SET STOPLIST = off
希望这有助于其他人。