什么软件可用于数据质量检查

时间:2011-06-22 19:29:30

标签: csv text data-quality

我正在寻找一些可能的软件选项,允许自定义规则来操作批量数据文件(.csv)例如,适当的大写(允许状态保持大写和唯一的姓氏),识别字数字段中的特定单词以及一些其他自定义规则。任何指导都将不胜感激。

2 个答案:

答案 0 :(得分:0)

快速谷歌“数据清理工具”出现了这个:

http://data-scrubbing.qarchive.org/

他们看起来非常接近你正在寻找的东西。

这实际上取决于规则的复杂程度。比简单的东西复杂得多,你可能只需编写一些东西(或编码)就可以领先。

答案 1 :(得分:0)

您可以使用Talend Open Studio执行此任务。它是一个用于数据操作和集成的Opensource ETL工具。例如,您可以使用ImportCSV>>数据库>>执行转换>> ExportCSV。可能性是无穷无尽的。

您可以在此处找到它:http://www.talend.com/products-data-integration/talend-open-studio.php

听起来您可能正在寻找创建数据的配置文件。为此,您可以使用Talend Open Profiler,他们最近添加了对.csv等平面文件的支持。它使用简单,你应该在30分钟内启动并运行。

您可以在此处找到下载:http://www.talend.com/products-data-quality/talend-open-profiler.php

你可以在这里找到一些教程:http://www.talendforge.org/tutorials/menu.php

在教程中选择“数据质量”选项卡,然后向下滚动,直到“Talend Open Profiler”

这是我评估新数据集的数据质量的第一步。