R / Python - 对文本数据进行聚类

时间:2017-06-19 19:05:42

标签: python r cluster-analysis

我有一组数字。我的号码有不同的格式,例如12-12-123-123123-123-123-12123-:12-(123ABC-123-12-123。整个数据集大约有150种格式。将它们视为字符串,有没有一种方法可以将所有数字分组为特定格式,以便给定一个新数字,它应检查新数字是否与任何现有模式匹配。如果不是,它应该能够推荐它与现有格式最接近的模式。

我可以使用R或Python。

0 个答案:

没有答案