我正在尝试进行数据规范化并填充正确的邮政编码,城市和州。 数据包含邮政编码,城市,州和地址字段信息以及许多错误信息,例如类型错误等。 按照方法,我曾尝试过:
从正确的邮政编码,城市和州信息查找并进行规范化,仅涵盖40-50%的正确规范化
对地址进行标记并对正确的邮政编码,城市和州应用大量条件语句以及查找信息。地址字段包含大量丰富的信息,可用于创建查找和数据规范化。这种方法仅涵盖50-60%的正确标准化。
数据包含大量历史信息,新数据不断涌现。这是一个进行数据规范化的迭代过程。是否有更好的方法使用机器学习技术进行数据规范化,即数据从历史数据中学习并进行规范化?
答案 0 :(得分:0)
这是一个非常普遍的问题,所以我给出了一般答案。
如果没有别的办法可以帮助,应该使用机器学习。 最简单的解决方案是:如果你有足够的数据(你可以牺牲其中一些),数据仍然具有相同的质量,尝试基于一些正则表达式进行过滤 - 它快速而直接
通过机器学习,您将在训练时节省一些时间,并且无法保证准确性。但是当然,有些情况下ML可以提供很多帮助