标签: hadoop apache-storm bigdata
我们在Google云中有一个hadoop群集,我们预计每天会有2TB的数据。该架构涉及风暴 - > HDFS-> Hive。
现在我没有关于风暴的信息,所以任何人都可以从测试的角度告诉我,如果我在风暴中收到JSON数据,我有什么方法可以验证数据确保从源发送的数据和Storm拓扑中收到的数据是正确的,或者只有在HDFS中可用时才能测试数据。
正如我研究的那样,我只能在风暴中找到螺栓的单元测试。这是测试数据的唯一方法。