在SQL Server TEXT列中查找常用短语

时间:2010-04-26 23:55:20

标签: .net sql-server data-mining ssas data-analysis

简短说明

我很想知道我是否可以使用SQL Analysis服务或其他一些SQL Server服务为我挖掘一些数据,这些数据将显示数据集中SQL TEXT字段之间的共性。

长描述

我正在查看由大约10,000行TEXT blob组成的数据子集,这些blobs用作问题跟踪(票务)软件中的备注列。我想使用开箱即用的东西(无需构建某些东西),它可以解析所有行并在“Notes”列中找到常用的字节序列。换句话说,我想找到常用的短语(两到三个单词短语,因此TEXT blob的9到20个字符部分)。这将有助于我更好地确定员工的笔记是否包含我们可以在故障排除流程中标准化的类似短语(故障排除技术)。

结束注释

我真的不想构建一个应用程序来执行此操作,因为我的方法可能不是最有效的方法。

或者,如果没有人知道开箱即用的解决方案,你能否推荐我可以在代码中使用的任何算法,在那里我可以对一组值进行字符串比较?

希望这一切都有道理。如果有任何需要澄清的话,请在评论中告诉我。

1 个答案:

答案 0 :(得分:1)

您可以使用SQL Server Integration Services(企业版和开发版)中的文本挖掘转换来执行术语查找和术语提取,然后使用Analysis Services中的关联规则来构建术语关联模型。有一个aging tutorial应该仍然有效(需要免费登录)

我们将在今年晚些时候宣布与此相关的内容 - 如果您对beta测试感兴趣,可以在我们的网站(predixionsoftware.com)上留下反馈。

-Jamie MacLennan CTO Predixion软件