SELECT REPLACE('<strong>100</strong><b>.00 GB', '%^(^-?\d*\.{0,1}\d+$)%', '');
我想用上面的正则表达式替换数字的两个部分之间的任何标记,但它似乎不起作用。我不确定它是否是正则表达式语法是错误的,因为我尝试了更简单的语法,如'%[^0-9]%'
只是为了测试,但它也没有用。有谁知道我怎么能实现这个目标?
答案 0 :(得分:52)
您可以使用PATINDEX 找到模式(字符串)出现的第一个索引。然后使用STUFF将另一个字符串填充到匹配的模式(字符串)中。
遍历每一行。用你想要的东西替换每个非法字符。在您的情况下,将非数字替换为空白。内部循环是指当前单元格中有多个非法字符。
DECLARE @counter int
SET @counter = 0
WHILE(@counter < (SELECT MAX(ID_COLUMN) FROM Table))
BEGIN
WHILE 1 = 1
BEGIN
DECLARE @RetVal varchar(50)
SET @RetVal = (SELECT Column = STUFF(Column, PATINDEX('%[^0-9.]%', Column),1, '')
FROM Table
WHERE ID_COLUMN = @counter)
IF(@RetVal IS NOT NULL)
UPDATE Table SET
Column = @RetVal
WHERE ID_COLUMN = @counter
ELSE
break
END
SET @counter = @counter + 1
END
警告:虽然这很慢!拥有varchar列可能会产生影响。所以使用LTRIM RTRIM可能会有所帮助。无论如何,它很慢。
积分转到this StackOverFlow回答。
EDIT 还可以转到@srutzky
编辑(由@Tmdean撰写) 这个答案可以适应更基于集合的解决方案,而不是一次一行。它仍然迭代一行中非数字字符数的最大值,因此它并不理想,但我认为在大多数情况下它应该是可接受的。
WHILE 1 = 1 BEGIN
WITH q AS
(SELECT ID_Column, PATINDEX('%[^0-9.]%', Column) AS n
FROM Table)
UPDATE Table
SET Column = STUFF(Column, q.n, 1, '')
FROM q
WHERE Table.ID_Column = q.ID_Column AND q.n != 0;
IF @@ROWCOUNT = 0 BREAK;
END;
如果您在表中维护一个表示该字段是否已被清除的列,您还可以提高效率。 (在我的示例中,NULL表示“未知”,应该是列默认值。)
DECLARE @done bit = 0;
WHILE @done = 0 BEGIN
WITH q AS
(SELECT ID_Column, PATINDEX('%[^0-9.]%', Column) AS n
FROM Table
WHERE COALESCE(Scrubbed_Column, 0) = 0)
UPDATE Table
SET Column = STUFF(Column, q.n, 1, ''),
Scrubbed_Column = 0
FROM q
WHERE Table.ID_Column = q.ID_Column AND q.n != 0;
IF @@ROWCOUNT = 0 SET @done = 1;
-- if Scrubbed_Column is still NULL, then the PATINDEX
-- must have given 0
UPDATE table
SET Scrubbed_Column = CASE
WHEN Scrubbed_Column IS NULL THEN 1
ELSE NULLIF(Scrubbed_Column, 0)
END;
END;
如果您不想更改架构,则很容易适应将中间结果存储在表值变量中,该变量将在最后应用于实际表。
答案 1 :(得分:23)
一般而言,SQL Server不支持正则表达式,您不能在本机T-SQL代码中使用它们。
您可以编写CLR函数来执行此操作。例如,请参阅here。
答案 2 :(得分:17)
使用Replace(Column, BadFoundCharacter, '')
而不是通过其唯一位置剥离找到的角色可能会快得多。此外,不是仅替换每列中的下一个坏字符,而是替换所有找到的字符。
WHILE 1 = 1 BEGIN
UPDATE dbo.YourTable
SET Column = Replace(Column, Substring(Column, PatIndex('%[^0-9.-]%', Column), 1), '')
WHERE Column LIKE '%[^0-9.-]%'
If @@RowCount = 0 BREAK;
END;
我确信这比接受的答案更有效,只是因为它的操作更少。还有其他方法也可能更快,但我现在没时间探索这些方法。
答案 3 :(得分:3)
这是我根据以前的答案写的一个函数来完成这个。
CREATE FUNCTION dbo.RepetitiveReplace
(
@P_String VARCHAR(MAX),
@P_Pattern VARCHAR(MAX),
@P_ReplaceString VARCHAR(MAX),
@P_ReplaceLength INT = 1
)
RETURNS VARCHAR(MAX)
BEGIN
DECLARE @Index INT;
-- Get starting point of pattern
SET @Index = PATINDEX(@P_Pattern, @P_String);
while @Index > 0
begin
--replace matching charactger at index
SET @P_String = STUFF(@P_String, PATINDEX(@P_Pattern, @P_String), @P_ReplaceLength, @P_ReplaceString);
SET @Index = PATINDEX(@P_Pattern, @P_String);
end
RETURN @P_String;
END;
最初我在这里有一个递归函数,它不能很好地与sql server一起使用,因为它有32个嵌套级别限制,当你尝试用函数进行32次替换时会导致类似下面的错误。而不是尝试进行服务器级别更改以允许更多嵌套(这可能是危险的,如允许永不结束循环)切换到while循环更有意义。
超出最大存储过程,函数,触发器或视图嵌套级别(限制32)。
答案 4 :(得分:3)
我偶然发现了这篇文章寻找其他的东西,但我想我会提到一个更有效的解决方案 - 当与基于集合的查询一起使用时,它应该是任何函数的默认实现 - 这是使用交叉应用表函数。似乎该主题仍然有效,所以希望这对某人有用。
基于运行基于递归集的查询或标量函数的一些答案的示例运行时,基于1m行测试集从随机newid中删除字符,WHILE循环示例的范围从34s到2m05s函数示例的1m3s到{forever}。
使用具有交叉应用的表格功能可在 10s 中实现相同的目标。您可能需要调整它以满足您的需要,例如它处理的最大长度。
功能:
CREATE FUNCTION [dbo].[RemoveChars](@InputUnit VARCHAR(40))
RETURNS TABLE
AS
RETURN
(
WITH Numbers_prep(Number) AS
(
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1
)
,Numbers(Number) AS
(
SELECT TOP (ISNULL(LEN(@InputUnit),0))
row_number() OVER (ORDER BY (SELECT NULL))
FROM Numbers_prep a
CROSS JOIN Numbers_prep b
)
SELECT
OutputUnit
FROM
(
SELECT
substring(@InputUnit,Number,1)
FROM Numbers
WHERE substring(@InputUnit,Number,1) like '%[0-9]%'
ORDER BY Number
FOR XML PATH('')
) Sub(OutputUnit)
)
用法:
UPDATE t
SET column = o.OutputUnit
FROM ##t t
CROSS APPLY [dbo].[RemoveChars](t.column) o
答案 5 :(得分:2)
如果要重用它,将解决方案包装在SQL函数中可能很有用。 我甚至在细胞水平上做这个,这就是为什么我把它作为一个不同的答案:
SELECT
u.user_id as user_id,
date(u.created) as signup_date,
cal.date as date,
from (select date(dt) as date from [dw.calendar] where date(dt) <
CURRENT_DATE() ) cal
cross join each dw.user u
where
date(u.created) <= cal.date
答案 6 :(得分:2)
对于那些寻求高性能,简单解决方案并愿意启用CLR的人:
create database TestSQLFunctions
go
use TestSQLFunctions
go
alter database TestSQLFunctions set trustworthy on
EXEC sp_configure 'clr enabled', 1
RECONFIGURE WITH OVERRIDE
go
CREATE ASSEMBLY [SQLFunctions]
AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE
go
CREATE FUNCTION RegexReplace(
@input nvarchar(max),
@pattern nvarchar(max),
@replacement nvarchar(max)
) RETURNS nvarchar (max)
AS EXTERNAL NAME SQLFunctions.[SQLFunctions.Regex].Replace;
go
-- outputs This is a test
select dbo.RegexReplace('This is a test 12345','[0-9]','')
答案 7 :(得分:2)
我认为这个解决方案更快更简单。我总是使用 CTE/递归,因为 mssql 上的速度太慢了。 我在我处理的项目和大型数据库中使用它。
/*
Function: dbo.kSql_ReplaceRegExp
Create Date: 20.02.2021
Author: Karcan Ozbal
Description: The given string value will be replaced according to the given regexp/pattern.
Parameter(s): @Value : Value/Text to REPLACE.
@RegExp : The regexp/pattern to be used for REPLACE operation.
Usage: select dbo.kSql_ReplaceRegExp('2T3EST5','%[0-9]%')
Output: 'TEST'
*/
ALTER FUNCTION [dbo].[kSql_ReplaceRegExp](
@Value nvarchar(max),
@RegExp nvarchar(50)
)
RETURNS nvarchar(max)
AS
BEGIN
DECLARE @Result nvarchar(max)
;WITH CTE AS (
SELECT NUM = 1, VALUE = @Value, IDX = PATINDEX(@RegExp, @Value)
UNION ALL
SELECT NUM + 1, VALUE = REPLACE(VALUE, SUBSTRING(VALUE,IDX,1),''), IDX = PATINDEX(@RegExp, REPLACE(VALUE, SUBSTRING(VALUE,IDX,1),''))
FROM CTE
WHERE IDX > 0
)
SELECT TOP(1) @Result = VALUE
FROM CTE
ORDER BY NUM DESC
OPTION (maxrecursion 0)
RETURN @Result
END
答案 8 :(得分:1)
如果您只是为进入存储过程的参数执行此操作,则可以使用以下命令:
while PatIndex('%[^0-9]%', @Param) > 0
select @Param = Replace(@Param, Substring(@Param, PatIndex('%[^0-9]%', @Param), 1), '')
答案 9 :(得分:0)
我认为更简单,更快捷的方法是按字母表中的每个字符进行迭代:
DECLARE @i int
SET @i = 0
WHILE(@i < 256)
BEGIN
IF char(@i) NOT IN ('0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '.')
UPDATE Table SET Column = replace(Column, char(@i), '')
SET @i = @i + 1
END
答案 10 :(得分:0)
我创建了此函数来清理在时间字段中包含非数字字符的字符串。他们未添加分钟数时,时间中包含问号,例如20:??。函数遍历每个字符并替换?带有0:
CREATE FUNCTION [dbo].[CleanTime]
(
-- Add the parameters for the function here
@intime nvarchar(10)
)
RETURNS nvarchar(5)
AS
BEGIN
-- Declare the return variable here
DECLARE @ResultVar nvarchar(5)
DECLARE @char char(1)
-- Add the T-SQL statements to compute the return value here
DECLARE @i int = 1
WHILE @i <= LEN(@intime)
BEGIN
SELECT @char = CASE WHEN substring(@intime,@i,1) like '%[0-9:]%' THEN substring(@intime,@i,1) ELSE '0' END
SELECT @ResultVar = concat(@ResultVar,@char)
set @i = @i + 1
END;
-- Return the result of the function
RETURN @ResultVar
END
答案 11 :(得分:0)
我认为这更清楚:
ALTER FUNCTION [dbo].[func_ReplaceChars](
@Value nvarchar(max),
@Chars nvarchar(50)
)
RETURNS nvarchar(max)
AS
BEGIN
DECLARE @cLen int = len(@Chars);
DECLARE @curChar int = 0;
WHILE @curChar<@cLen
BEGIN
set @Value = replace(@Value,substring(@Chars,@curChar,1),'');
set @curChar = @curChar + 1;
END;
RETURN @Value
END