标签: elasticsearch workflow bigdata apache-kafka
例如,我有3000万条记录,存储在我们的数据存储区中。然后我想以2小时的间隔随机阅读其中的一小部分:例如,我想每2小时阅读100万条随机记录,并对它们采取一些措施。什么是解决这类问题的最佳方法?
是否有适合这种情况的开源框架?如果我有完整的数据,我该如何安排工作?
谢谢, 陈