如何以每小时间隔读取大数据集

时间:2014-04-12 18:41:42

标签: elasticsearch workflow bigdata apache-kafka

例如,我有3000万条记录,存储在我们的数据存储区中。然后我想以2小时的间隔随机阅读其中的一小部分:例如,我想每2小时阅读100万条随机记录,并对它们采取一些措施。什么是解决这类问题的最佳方法?

  1. 我应该全部阅读3000万,并将它们存储在一个 队列(例如,Kafak),然后每2小时运行一次作业来读取 队列。
  2. 或者我应该将我的查询设计为100万     记录,然后有一个工作,每2小时运行一次查询,得到     数据集,然后在处理后删除它们?
  3. 是否有适合这种情况的开源框架?如果我有完整的数据,我该如何安排工作?

    谢谢, 陈

0 个答案:

没有答案