要在Spark Streaming中创建RDD,我应该如何估计正确的批处理间隔,以使我的RDD不会太短也不会太长?
公共类FirstSparkApplication {
SELECT COUNT(emp.DEPT_ID) AS `count`, dept.NAME
FROM ORGANIZATION AS dept
LEFT JOIN EMPLOYEE AS emp ON emp.DEPT_ID = dept.ID
GROUP BY dept.NAME
ORDER BY `count` DESC, dept.NAME ASC
}
我正在尝试创建一个Spark Streaming应用程序,该应用程序从netcat源获取数据并创建RDD。但是,我不知道创建批处理间隔的正确方法。我在此处附加的代码示例适合简单使用,但是对于大型数据集,我需要估计最佳的批处理间隔才能创建RDD。那么,我该如何计算呢?