标签: python r cluster-analysis
我有一组数字。我的号码有不同的格式,例如12-12-123-123,123-123-123-12,123-:12-(123,ABC-123-12-123。整个数据集大约有150种格式。将它们视为字符串,有没有一种方法可以将所有数字分组为特定格式,以便给定一个新数字,它应检查新数字是否与任何现有模式匹配。如果不是,它应该能够推荐它与现有格式最接近的模式。
12-12-123-123
123-123-123-12
123-:12-(123
ABC-123-12-123
我可以使用R或Python。