应用错误收集

要在Spark Streaming中创建RDD，我应该如何估计正确的批处理间隔，以使我的RDD不会太短也不会太长？

公共类FirstSparkApplication {

SELECT COUNT(emp.DEPT_ID) AS `count`, dept.NAME 
FROM ORGANIZATION AS dept
LEFT JOIN EMPLOYEE AS emp ON emp.DEPT_ID = dept.ID 
GROUP BY dept.NAME
ORDER BY `count` DESC, dept.NAME ASC

}

我正在尝试创建一个Spark Streaming应用程序，该应用程序从netcat源获取数据并创建RDD。但是，我不知道创建批处理间隔的正确方法。我在此处附加的代码示例适合简单使用，但是对于大型数据集，我需要估计最佳的批处理间隔才能创建RDD。那么，我该如何计算呢？

批处理间隔以创建RDD

0 个答案: