应用错误收集

我设置了 Hadoop，Cassandra，Pig，Mysql

我的目标是从cassandra中读取1个月的数据并定期将结果输入mysql。

最佳做法是什么？
是否需要加载所有数据并在pig中过滤1个月或使用pig / cql（使用CqlStorage）从cassandra加载时进行过滤。

这里的问题是，如果我需要在从cassandra加载时进行过滤 pig有一个bug在cql（https://issues.apache.org/jira/browse/CASSANDRA-6151）上有where子句。

或

另一个加载所有数据并通过pig过滤的解决方案的问题是，数据过于接近 2亿条记录，是否是加载所有数据的更好解决方案，如果是这样，性能如何呢？猪脚本运行的时间。