我需要计算给定表中所有记录中单词列表的出现次数。如果我只有一个字,我可以这样做:
select count(id) as NumRecs where essay like '%word%'
但我的列表可能是数百或数千个单词,我不想连续创建数百或数千个sql请求;这看起来很傻。我有一个想法,我可以创建一个接受逗号分隔的单词列表的存储过程,对于每个单词,它将运行上面的查询,然后将它们组合在一起,并返回一个巨大的数据集。 (听起来很合理,对吧?但我不知道从哪个方向开始......)
如果没有关于union的一些奇怪的事情,我可能会尝试用临时表做一些事情 - 为每个单词和记录计数插入一行,然后从该临时表返回select *
。
如果有可能与工会,如何?一种方法是否具有优势(性能或其他方面)?
答案 0 :(得分:5)
如果要对返回每个单词的结果行的多个单词运行查询,则可以按照建议将这些单词存储在表中,并将查询与其连接,而不是在循环中运行大量查询。请注意,这里的关键词是join,而不是union。
SELECT word, COUNT(*)
FROM words
LEFT JOIN essays
ON essay LIKE '%' + words.word + '%'
GROUP BY word
结果:
'bar', 2
'baz', 2
'corge', 0
'foo', 1
'qux', 1
您可以查看full text search。它的运行速度比LIKE '%word%'
快得多。它还将正确处理字边界。基于LIKE的解决方案没有。
测试数据:
CREATE TABLE essays (essay NVARCHAR(100) NOT NULL);
INSERT INTO essays (essay) VALUES
('foo bar'),
('bar baz'),
('baz qux');
DROP TABLE words;
CREATE TABLE words (word NVARCHAR(100) NOT NULL);
INSERT INTO words (word) VALUES
('foo'),
('bar'),
('baz'),
('qux'),
('corge');
答案 1 :(得分:0)
在SQL Server中分割字符串的方法有很多种。本文涵盖几乎所有方法的PRO和CON:"Arrays and Lists in SQL Server 2005 and Beyond, When Table Value Parameters Do Not Cut it" by Erland Sommarskog
I prefer the number table approach to split a string in TSQL,要使此方法有效,您需要执行以下一次性表设置:
SELECT TOP 10000 IDENTITY(int,1,1) AS Number
INTO Numbers
FROM sys.objects s1
CROSS JOIN sys.objects s2
ALTER TABLE Numbers ADD CONSTRAINT PK_Numbers PRIMARY KEY CLUSTERED (Number)
设置Numbers表后,创建此拆分功能:
CREATE FUNCTION [dbo].[FN_ListToTable]
(
@SplitOn char(1) --REQUIRED, the character to split the @List string on
,@List varchar(8000)--REQUIRED, the list to split apart
)
RETURNS TABLE
AS
RETURN
(
----------------
--SINGLE QUERY-- --this will not return empty rows
----------------
SELECT
ListValue
FROM (SELECT
LTRIM(RTRIM(SUBSTRING(List2, number+1, CHARINDEX(@SplitOn, List2, number+1)-number - 1))) AS ListValue
FROM (
SELECT @SplitOn + @List + @SplitOn AS List2
) AS dt
INNER JOIN Numbers n ON n.Number < LEN(dt.List2)
WHERE SUBSTRING(List2, number, 1) = @SplitOn
) dt2
WHERE ListValue IS NOT NULL AND ListValue!=''
);
GO
您现在可以轻松地将CSV字符串拆分为表格并加入其中:
select * from dbo.FN_ListToTable(',','1,2,3,,,4,5,6777,,,')
输出:
ListValue
-----------------------
1
2
3
4
5
6777
(6 row(s) affected)
您现在可以加入CSV的分割,如:
DECLARE @YourTable table (RowID int, RowValue varchar(200))
INSERT INTO @YourTable VALUES (1,'aaa bbb ccc ddd eee fff ggg hhh')
INSERT INTO @YourTable VALUES (2,'bbb ddd fff hhh')
INSERT INTO @YourTable VALUES (3,'aaa bbb zzz')
DECLARE @Words varchar(500)
SET @Words='aaa,bbb,ccc,zzz'
SELECT
COUNT(y.RowID) AS CountOF,l.ListValue
FROM @YourTable y
INNER JOIN dbo.FN_ListToTable(',',@Words) AS l ON y.RowValue LIKE '%'+l.ListValue+'%'
GROUP BY l.ListValue
输出:
CountOF ListValue
----------- ---------------
2 aaa
3 bbb
1 ccc
1 zzz
(4 row(s) affected)