为什么SSIS TOKEN函数无法计算相邻列分隔符?

时间:2012-10-16 15:07:05

标签: ssis tokenize sql-server-2012

我在表达式编辑器中遇到了一个名为TOKEN()的SQL Server Integration Services 2012新字符串函数的问题。

这应该可以帮助您解析分隔的记录。如果记录来自平面文件,则可以使用平面文件源执行此操作。在这种情况下,我正在处理旧的分隔导入记录,这些记录在数据库VARCHAR字段中存储为字符串。现在需要将它们作为分隔字符串进行提取,按摩和重新导出。例如:

  

1 ^苹果^ 0001 ^ 01/01/2010 ^食蚁兽^ A1
  2 ^香蕉^ 0002 ^版本03/15/2010年^熊^ B2
  3 ^蔓越莓^ 0003 ^ 4/15/2010 ^ Crow ^ C3

如果这些字符串位于名为OldImportRecord的列中,则分隔符为插入符号(如图所示),我们希望将第五个字段放入派生列中,我们将使用如下表达式:

TOKEN(OldImportRecord,"^",5)

这将返回Anteater,Bear,Crow等。实际上,我们可以为此记录中的每个字段创建派生列(请注意索引是基于一个的),根据需要更改它们,然后构建另一个分隔的出口记录。

这是问题所在。如果我们的某些数据包含一些空字符串(或呈现为空字符串的Null)会怎样?

  

4 ^^ 0004 ^ 6/15/2010 ^ Duck ^ D4

TOKEN()无法计算相邻的列分隔符,这会引发列数。现在它只能看到五列而不是六列。我们的TOKEN(OldImportRecord,“^”,5)返回“D4”而不是预期的“Duck”。当我们提取第四列时,我们最终尝试将“Duck”放入Date列中,随后会出现各种各样的乐趣。

以下是部分解决方法:

TOKEN(REPLACE(OldImportRecord,"^^","^ ^"),"^",5)

请注意,这会错过每一个分隔符对,因此对于像“5 ^^^^ Emu ^ E5”这样的字符串会失败,在REPLACE()之后看起来像“5 ^ ^^ ^ Emu ^ E5”。列数仍然是错误的。

所以这是我的全部解决方法。这包括两个嵌套的REPLACE语句(),一个用于删除多余空格的RTRIM()和一个DT_STR强制转换,因为我想将结果保存在VARCHAR中:

(DT_STR,255,1252)RTRIM(TOKEN(REPLACE(REPLACE(OldImportRecord,"^^","^ ^"),"^^","^ ^"),"^",5))

我发布此信息,因为其他人也可能遇到此问题。

有没有人有更好的解决方法,甚至是真正的解决方案?

2 个答案:

答案 0 :(得分:2)

问题原因

SSIS中的

TOKEN 方法使用 C ++ strtok函数的实现。我在阅读这本书Microsoft® SQL Server® 2012 Integration Services时收集了这些信息。它在页面 113 上提到了注释(我喜欢这本书!很多很好的信息。)。

我搜索了strtok函数的实现,我找到了以下链接。

INFO: strtok(): C Function -- Documentation Supplement - 此链接中的代码示例显示该函数确实忽略了连续的分隔符。

以下SO问题的答案指出strtok函数旨在忽略连续的分隔符。

Need to know when no data appears between two token separators using strtok()

strtok_s behaviour with consecutive delimiters

我认为TOKENTOKENCOUNT函数按设计工作,但SSIS应该如何表现可能是Microsoft SSIS团队的问题。

原帖 - 以上部分是更新:

我根据您的数据输入在SSIS 2012中创建了一个简单的包。正如您在问题中所描述的那样,TOKEN函数的行为与预期不符。我同意你的看法,这个功能似乎不起作用。这篇文章是对原始问题的回答。

这是以相对简单的方式编写表达式的另一种方法。这仅在输入记录中的最后一个段始终具有值(例如 A1 B2 C3 等)时才有效。 / p>

表达式可以重写为

此语句将输入记录作为参数,分隔符插入符号(^)作为第二个参数。第三个参数计算分隔符拆分时记录中的总段数。如果您在最后一个细分中有数据,则可以保证有两个细分。然后,您可以减去1以获取倒数第二个段。

(DT_STR,50,1252)TOKEN(OldImportRecord,"^",TOKENCOUNT(OldImportRecord,"^") - 1)

我创建了一个包含数据流任务的简单包。 OLE DB源检索数据,派生的转换根据下面的屏幕截图解析和拆分数据。然后将输出插入目标表。您可以在上一个屏幕截图中查看源表和目标表。目标表有两列。第一列存储倒数第二段数据,并根据分隔符(再次不正确)计数段数。您可以注意到最后一条记录没有获取正确的结果。如果最后一条记录没有值8,则上述表达式将失败,因为表达式将评估为零索引。

希望有助于简化你的表达。

如果您没有收到其他人的回复,我建议您在Microsoft Connect website中记录此问题。

创建表格并填充脚本

CREATE TABLE [dbo].[SourceTable](
    [OldImportRecord] [varchar](50) NOT NULL
) ON [PRIMARY]
GO

CREATE TABLE [dbo].[DestinationTable](
    [NewImportRecord] [varchar](50) NOT NULL,
    [CaretCount] [int] NOT NULL
) ON [PRIMARY]
GO

INSERT INTO dbo.SourceTable (OldImportRecord) VALUES 
    ('1^Apple^0001^01/01/2010^Anteater^A1'),
    ('2^Banana^0002^03/15/2010^Bear^B2'),
    ('3^Cranberry^0003^4/15/2010^Crow^C3'),
    ('4^^0004^6/15/2010^Duck^D4'),
    ('5^^^^Emu^E5'),
    ('6^^^^Geese^F6'),
    ('^^^^Pheasant^G7'),
    ('8^^^^Sparrow^');
GO

数据流任务中的派生列转换

Derived column transformation

源表和目标表中的数据

Source and destination table data

答案 1 :(得分:2)

TOKEN不仅会跳过相邻的分隔符,还会跳过前导和尾随分隔符。因此,使用您的示例,如果您有一个字段“good”字段,如下所示:

1 ^苹果^ 0001 ^ 01/01/2010 ^食蚁兽^ A1

其次是相邻和前导分隔符,如下所示:

^^^0004^6/15/2010^Duck^

TOKENCOUNT只能找到两个分隔符,你最终会分配给Token1,分配给Token2的6/15/2010和分配给Token3的Duck。

我使用了另一种替换方式。而不是在相邻的分隔符之间放置空格,这对于领导或训练没有帮助,我使用替换用我在文本中绝对找不到的字符围绕分隔符。以下表达式对我很有用。它很罗嗦,但它就是它。

(DT_STR,255,1252)REPLACE(TOKEN(REPLACE(OldImportRecord,"^","~^~"),"^",1),"~","")

当然,您可以用您想要的任何代币替换数字1,并根据您的需要调整演员表。希望有所帮助。