SQL Server联合选择从单词列表动态构建

时间:2010-05-04 19:08:28

标签: sql sql-server sql-server-2005

我需要计算给定表中所有记录中单词列表的出现次数。如果我只有一个字,我可以这样做:

select count(id) as NumRecs where essay like '%word%'

但我的列表可能是数百或数千个单词,我不想连续创建数百或数千个sql请求;这看起来很傻。我有一个想法,我可以创建一个接受逗号分隔的单词列表的存储过程,对于每个单词,它将运行上面的查询,然后将它们组合在一起,并返回一个巨大的数据集。 (听起来很合理,对吧?但我不知道从哪个方向开始......)

如果没有关于union的一些奇怪的事情,我可能会尝试用临时表做一些事情 - 为每个单词和记录计数插入一行,然后从该临时表返回select *

如果有可能与工会,如何?一种方法是否具有优势(性能或其他方面)?

2 个答案:

答案 0 :(得分:5)

如果要对返回每个单词的结果行的多个单词运行查询,则可以按照建议将这些单词存储在表中,并将查询与其连接,而不是在循环中运行大量查询。请注意,这里的关键词是join,而不是union。

SELECT word, COUNT(*)
FROM words
LEFT JOIN essays
ON essay LIKE '%' + words.word + '%'
GROUP BY word

结果:

'bar', 2
'baz', 2
'corge', 0
'foo', 1
'qux', 1

您可以查看full text search。它的运行速度比LIKE '%word%'快得多。它还将正确处理字边界。基于LIKE的解决方案没有。


测试数据:

CREATE TABLE essays (essay NVARCHAR(100) NOT NULL);
INSERT INTO essays (essay) VALUES
('foo bar'),
('bar baz'),
('baz qux');

DROP TABLE words;
CREATE TABLE words (word NVARCHAR(100) NOT NULL);
INSERT INTO words (word) VALUES
('foo'),
('bar'),
('baz'),
('qux'),
('corge');

答案 1 :(得分:0)

在SQL Server中分割字符串的方法有很多种。本文涵盖几乎所有方法的PRO和CON:"Arrays and Lists in SQL Server 2005 and Beyond, When Table Value Parameters Do Not Cut it" by Erland Sommarskog

I prefer the number table approach to split a string in TSQL,要使此方法有效,您需要执行以下一次性表设置:

SELECT TOP 10000 IDENTITY(int,1,1) AS Number
    INTO Numbers
    FROM sys.objects s1
    CROSS JOIN sys.objects s2
ALTER TABLE Numbers ADD CONSTRAINT PK_Numbers PRIMARY KEY CLUSTERED (Number)

设置Numbers表后,创建此拆分功能:

CREATE FUNCTION [dbo].[FN_ListToTable]
(
     @SplitOn  char(1)      --REQUIRED, the character to split the @List string on
    ,@List     varchar(8000)--REQUIRED, the list to split apart
)
RETURNS TABLE
AS
RETURN 
(

    ----------------
    --SINGLE QUERY-- --this will not return empty rows
    ----------------
    SELECT
        ListValue
        FROM (SELECT
                  LTRIM(RTRIM(SUBSTRING(List2, number+1, CHARINDEX(@SplitOn, List2, number+1)-number - 1))) AS ListValue
                  FROM (
                           SELECT @SplitOn + @List + @SplitOn AS List2
                       ) AS dt
                      INNER JOIN Numbers n ON n.Number < LEN(dt.List2)
                  WHERE SUBSTRING(List2, number, 1) = @SplitOn
             ) dt2
        WHERE ListValue IS NOT NULL AND ListValue!=''

);
GO 

您现在可以轻松地将CSV字符串拆分为表格并加入其中:

select * from dbo.FN_ListToTable(',','1,2,3,,,4,5,6777,,,')

输出:

ListValue
-----------------------
1
2
3
4
5
6777

(6 row(s) affected)

您现在可以加入CSV的分割,如:

DECLARE @YourTable table (RowID int, RowValue varchar(200))
INSERT INTO @YourTable VALUES (1,'aaa bbb ccc ddd eee fff ggg hhh')
INSERT INTO @YourTable VALUES (2,'bbb ddd fff hhh')
INSERT INTO @YourTable VALUES (3,'aaa bbb zzz')

DECLARE @Words varchar(500)
SET @Words='aaa,bbb,ccc,zzz'

SELECT
    COUNT(y.RowID) AS CountOF,l.ListValue
    FROM @YourTable                                  y
        INNER JOIN dbo.FN_ListToTable(',',@Words) AS l ON y.RowValue LIKE '%'+l.ListValue+'%'
    GROUP BY l.ListValue

输出:

CountOF     ListValue
----------- ---------------
2           aaa
3           bbb
1           ccc
1           zzz

(4 row(s) affected)