如何验证存储在Hadoop中的数据?

时间:2014-08-23 05:09:43

标签: hadoop hdfs validation

我可以用任何框架或库来验证元组吗?这些验证应根据配置的验证规则测试类型,长度,可空性等。根据验证结果,这将生成验证文件索引失败的元组,并提供失败原因的详细信息。

1 个答案:

答案 0 :(得分:2)

Jumbune的数据验证模块可以让你这样做。它可以检查HDFS数据的正则表达式,空值和数据类型违规

只需在用户计算机上部署jumbune,在NameNode上运行一个小jar,启动jumbune并在HDFS验证选项卡上提供详细信息,

诸如元组分隔符,字段分隔符,要执行的验证的数量和类型等详细信息。结果将包含违规总数,文件名和行号以及违规的确切详细信息。

我想这个模块是根据您的需求量身定制的:)