批处理间隔以创建RDD

时间:2019-01-14 08:31:44

标签: apache-spark spark-streaming

要在Spark Streaming中创建RDD,我应该如何估计正确的批处理间隔,以使我的RDD不会太短也不会太长?

公共类FirstSparkApplication {

SELECT COUNT(emp.DEPT_ID) AS `count`, dept.NAME 
FROM ORGANIZATION AS dept
LEFT JOIN EMPLOYEE AS emp ON emp.DEPT_ID = dept.ID 
GROUP BY dept.NAME
ORDER BY `count` DESC, dept.NAME ASC

}

我正在尝试创建一个Spark Streaming应用程序,该应用程序从netcat源获取数据并创建RDD。但是,我不知道创建批处理间隔的正确方法。我在此处附加的代码示例适合简单使用,但是对于大型数据集,我需要估计最佳的批处理间隔才能创建RDD。那么,我该如何计算呢?

0 个答案:

没有答案