我正在寻找一些可能的软件选项,允许自定义规则来操作批量数据文件(.csv)例如,适当的大写(允许状态保持大写和唯一的姓氏),识别字数字段中的特定单词以及一些其他自定义规则。任何指导都将不胜感激。
答案 0 :(得分:0)
快速谷歌“数据清理工具”出现了这个:
http://data-scrubbing.qarchive.org/
他们看起来非常接近你正在寻找的东西。
这实际上取决于规则的复杂程度。比简单的东西复杂得多,你可能只需编写一些东西(或编码)就可以领先。
答案 1 :(得分:0)
您可以使用Talend Open Studio执行此任务。它是一个用于数据操作和集成的Opensource ETL工具。例如,您可以使用ImportCSV>>数据库>>执行转换>> ExportCSV。可能性是无穷无尽的。
您可以在此处找到它:http://www.talend.com/products-data-integration/talend-open-studio.php
听起来您可能正在寻找创建数据的配置文件。为此,您可以使用Talend Open Profiler,他们最近添加了对.csv等平面文件的支持。它使用简单,你应该在30分钟内启动并运行。
您可以在此处找到下载:http://www.talend.com/products-data-quality/talend-open-profiler.php
你可以在这里找到一些教程:http://www.talendforge.org/tutorials/menu.php
在教程中选择“数据质量”选项卡,然后向下滚动,直到“Talend Open Profiler”
这是我评估新数据集的数据质量的第一步。