用于加载和处理数据的cassandra / hadoop / pig设计

时间:2014-02-11 10:01:17

标签: hadoop cassandra apache-pig

我设置了 Hadoop,Cassandra,Pig,Mysql

我的目标是从cassandra中读取1个月的数据并定期将结果输入mysql。

最佳做法是什么?
是否需要加载所有数据并在pig中过滤1个月或使用pig / cql(使用CqlStorage)从cassandra加载时进行过滤。

这里的问题是, 如果我需要在从cassandra加载时进行过滤 pig有一个bug在cql(https://issues.apache.org/jira/browse/CASSANDRA-6151)上有where子句

另一个加载所有数据并通过pig过滤的解决方案的问题是,数据过于接近 2亿条记录,是否是加载所有数据的更好解决方案,如果是这样,性能如何呢?猪脚本运行的时间。

0 个答案:

没有答案