我在SAS中列出了18,000个唯一实体。在大多数情况下,个别实体会引用更广泛的一般实体,但拼写不同。例如,“BADE OF MADEUPBANK”和“BK OF MADEUPBANK”将作为唯一实体存在于列表中,即使它们实际上是同一实体。我的目标是通过通用客户名称对实际相同的实体进行分组。例如,通用名称“BADE OF MADEUPBANK”将适用于“BK OF MADEUPBANK”,“BANK OF MADEUP”,“BK OF MAD UP”等。这可以直接以编程方式实现各种字符串搜索的一些常见的,大的实体。但是,如果不读取所有18,000个内容,就无法对字符串搜索应用我甚至不知道列表中的模糊实体。我想知道是否有办法执行我在这个组成的银行上使用的逻辑过程来捕获18,000列表中的所有相关实例......但不知道最终的一般实体是什么。是否有一种技术可以滚动名称列表并根据相似性对它们进行分组?
谢谢!