我设置了 Hadoop,Cassandra,Pig,Mysql
我的目标是从cassandra中读取1个月的数据并定期将结果输入mysql。
最佳做法是什么?
是否需要加载所有数据并在pig中过滤1个月或使用pig / cql(使用CqlStorage)从cassandra加载时进行过滤。
这里的问题是, 如果我需要在从cassandra加载时进行过滤 pig有一个bug在cql(https://issues.apache.org/jira/browse/CASSANDRA-6151)上有where子句。
或
另一个加载所有数据并通过pig过滤的解决方案的问题是,数据过于接近 2亿条记录,是否是加载所有数据的更好解决方案,如果是这样,性能如何呢?猪脚本运行的时间。