将多个管道分隔的列解析为行,同时保留适当的对齐方式和ID

时间:2018-08-03 17:28:30

标签: sql-server tsql sql-server-2012

我被迫使用带有唯一ID和许多列的数据进行有价值的评估。其中一些列本身包含有关“子”记录的其他详细信息,这些是管道分隔的字段。

我正在展示一个修改后的/通用表,其中包含我正在处理的类似管道定界字段。这里的想法是,列中的每个子项目与后续列中的相同子项目对齐。即每个唯一ID的每一列中总是有相同数量的子项目,但是每一行可以包含不同数量的子项目。

enter image description here

虽然我可以使用XML和某些CTE解析数据,但我不确定值在原始表中输入时总会在最终查询中出现,这似乎是一种破解,而不是一个好的解决方案。特别是考虑到我要处理的实际表有数千行。我希望那里的人有一个更优雅的解决方案。

DECLARE @Inputs TABLE
(
    ID INT,
    Generic1 VARCHAR(50),
    Generic2 VARCHAR(50),
    Generic3 VARCHAR(50)
)

Insert into @Inputs
VALUES
(1,'yes|no|yes|no','12345.54|34343.34|0|3453.22','a|b|c|d'),
(2,'no|yes','54321.12|12345.12','b|d'),
(3, 'yes|yes|yes','12345.12|78907.32|65432.21','e|f|g|h')

select * from @Inputs

;WITH
cGeneric1 AS (
SELECT 
        ROW_NUMBER() OVER(partition by ID order by ID) as RowID, 
        ID, 
        rtrim(ltrim(n.r.value('.', 'varchar(200)'))) Generic1
    FROM 
        (
        SELECT 
            ID,
            Generic1
        FROM @Inputs
        ) as T
      CROSS APPLY (select cast('<r>'+replace(Generic1,'|', '</r><r>')+'</r>' as xml)) as S(XMLCol)
      CROSS APPLY S.XMLCol.nodes('r') as n(r)),

cGeneric2 AS (
SELECT 
        ROW_NUMBER() OVER(partition by ID order by ID) as RowID, 
        ID, 
        TRY_PARSE(rtrim(ltrim(n.r.value('.', 'varchar(200)'))) as numeric(10,2)) Generic2
    FROM 
        (
        SELECT 
            ID,
            Generic2
        FROM @Inputs
        ) as T
      CROSS APPLY (select cast('<r>'+replace(Generic2,'|', '</r><r>')+'</r>' as xml)) as S(XMLCol)
      CROSS APPLY S.XMLCol.nodes('r') as n(r)),

cGeneric3 AS (
SELECT 
        ROW_NUMBER() OVER(partition by ID order by ID) as RowID, 
        ID, 
        rtrim(ltrim(n.r.value('.', 'varchar(200)'))) Generic3
    FROM 
        (
        SELECT 
            ID,
            Generic3
        FROM @Inputs
        ) as T
      CROSS APPLY (select cast('<r>'+replace(Generic3,'|', '</r><r>')+'</r>' as xml)) as S(XMLCol)
      CROSS APPLY S.XMLCol.nodes('r') as n(r))



SELECT
    G1.ID,
    G1.Generic1,
    G2.Generic2,
    G3.Generic3
FROM cGeneric1 G1
  INNER JOIN cGeneric2 G2
    ON G2.ID=G1.ID
      AND G2.RowID=G1.RowID
  INNER JOIN cGeneric3 G3
    ON G3.ID=G1.ID
      AND G3.RowID=G1.RowID

2 个答案:

答案 0 :(得分:0)

借助返回序列的解析/拆分函数

示例

Declare @YourTable table (ID int,Generic1 varchar(50),Generic2 varchar(50),Generic3 varchar(50))
Insert Into @YourTable values
(1,'Yes|No|Yes|No','12345.54|3443.34|0|3453.22','a|b|c|d'),
(2,'Yes|No','54321.12|12345.12','b|d')


Select A.ID 
      ,B.*
 From  @YourTable A
 Cross Apply (
                Select B1.RetSeq
                      ,Generic1 = B1.RetVal
                      ,Generic2 = B2.RetVal
                      ,Generic3 = B3.RetVal
                  From [dbo].[tvf-Str-Parse](Generic1,'|') B1
                  Join [dbo].[tvf-Str-Parse](Generic2,'|') B2 on B1.RetSeq=B2.RetSeq
                  Join [dbo].[tvf-Str-Parse](Generic3,'|') B3 on B1.RetSeq=B3.RetSeq
             ) B

返回

ID  RetSeq  Generic1    Generic2    Generic3
1   1       Yes         12345.54    a
1   2       No          3443.34     b
1   3       Yes         0           c
1   4       No          3453.22     d
2   1       Yes         54321.12    b
2   2       No          12345.12    d

感兴趣的功能。

CREATE FUNCTION [dbo].[tvf-Str-Parse] (@String varchar(max),@Delimiter varchar(10))
Returns Table 
As
Return (  
    Select RetSeq = Row_Number() over (Order By (Select null))
          ,RetVal = LTrim(RTrim(B.i.value('(./text())[1]', 'varchar(max)')))
    From  (Select x = Cast('<x>' + replace((Select replace(@String,@Delimiter,'§§Split§§') as [*] For XML Path('')),'§§Split§§','</x><x>')+'</x>' as xml).query('.')) as A 
    Cross Apply x.nodes('x') AS B(i)
);

答案 1 :(得分:0)

如果列始终包含四个或更少的子值,则可以使用内置的PARSENAME函数。但是,即使它们可以容纳4个以上,您也可以始终编写自己的PARSENAME

编写一个函数,该函数传递一个字符串值和一个整数(以及可选的分隔符,或者您可以将其硬编码为管道字符)。该函数将使用CHARINDEX从定界符的某个出现*(或字符串的开头)开始,并找到下一个定界符的字符(或字符串的结尾),并返回子字符串在这些字符位置之间。

*“某些事件”由函数的整数参数指定。

因此,最后,如果您这样调用函数:MyFunction('hello|world|peace',1,'|'),它将返回字符串“ world”(假设您使用了从零开始的逻辑,且整数参数...“ world”是第一个管道和第二个管道之间的子字符串。)

然后,您可以从列中获取子字符串,并确保在每个函数调用中使用相同的整数值来获取相应的子字符串。

我不知道它将具有什么样的性能,但是它将使代码非常易读,并允许您在较大的查询中使用“内联”子值(请注意,从您的查询中并不清楚问题,这是否是您的最终目标)。