数据清理:用户输入数据库数据工具

时间:2011-08-15 09:44:42

标签: database etl data-cleansing

我们有一个包含一些冗余的坏数据的数据库。例如,一些文章的名称具有大写的小写区别,另一个是重音问题,其他是缺少字母等等。我们的想法是合并实际上相同的db记录。

是否有很好的工具可以轻松清理数据库,理想情况下这不会自动完成,但需要用户确认

1 个答案:

答案 0 :(得分:1)

有很多工具用于数据清理。此外,还有更多公司提供数据清理服务。

我已经为几家大公司进行了数据清理,这不是一项容易的任务,或者看起来很简单,而且重复数据也充满了各种各样的问题,这些问题在你开始练习之前就不会显而易见了。

恕我直言,如果您的遗留数据处于相对较差的状态,并且您在此(非常专业)的领域没有内部专业知识,我会考虑聘请第三方为您执行此操作,因为他们很可能比从头开始更快,更低的总成本。

如果你想建立内部技能来做到这一点,那么我已经做了几次快速谷歌搜索并看到了许多软件包,你可能想要研究这些软件包相对于彼此的相对优势您希望清理的特定类型的数据,因为某些区域在某些区域会比其他区域更好。

希望这有帮助, 奥利。