DQS复合域 - 原始数据名称字段包含人员和公司名称

时间:2012-03-12 20:06:14

标签: sql-server-2012 data-quality-services

我正在尝试在SQL Server 2012 DQS中构建知识库。在我试图通过DQS运行的原始数据中,我有一个全名域字段,遗憾的是它可以包含人名和公司名称。我想知道是否有人建议如何使用DQS清理和解析此字段而无需购买参考数据服务,这样如果它是公司名称,它会将整个字段放入FirstName或LastName域,但如果它不是公司然后它将整个名称解析到适当的域中。

我设置了一个名为FullName的复合域,它由FirstName,MiddleName和LastName域组成,并将其映射到我的原始数据。然后我使用基于复合域知识的解析来尝试将这些值解析到它们各自的字段中,但不幸的是它尝试解析公司名称,就好像它们是人一样,所以我得到了许多姓氏,如“& Associates Inc”等。

似乎解决这个问题最简单的方法是创建一个商业词汇领域并拥有一个复合域规则,基本上说,如果FullName域中的任何一个词都在BusinessWord域中,那么就输入全名在FirstName域中,否则尝试将名称解析为first,middle,last。这种查询是否超出了DQS的能力?

到目前为止,我唯一可以找到的DQS CD规则是创建硬编码的规则,即如果城市是“伦敦”然后将国家改为“英格兰”,但我想要一个更有活力的规则,如果BusinessWord在FullName中然后将整个事物放在FirstName中。只是想知道是否有人尝试DQS遇到了这样的问题,如果它可以解决,而不必为参考数据服务支付荒谬的金额。

如果你不能用这个东西清理姓名和地址那么它有什么用呢?

提前致谢。

1 个答案:

答案 0 :(得分:0)

我会通过在DQS任务中使用KB作为SSIS工作流程的一部分来解决这个问题。这个blog post提供了有关如何使用DQS任务的参考。根据您的情况,我将使用状态列的输出(定义规则),然后根据业务规则通过其他SSIS任务重定向输出。

我知道这不太理想,但我认为它可以解决当前的紧迫任务。