使用Spark连续加入两个MySQL表

时间:2018-02-17 14:54:06

标签: mysql apache-spark spark-streaming

假设MySQL数据库中有两个表,我们将根据公共列对它们运行连接。关键是,两个表上的数据都在增长,因此每一秒都有一些行添加到每个表中。

Table 1:

---ID-----SomeColumn------CommonColumn----
---1----- data row 1 --------- 1 ---------
---2----- data row 2 --------- 8 ---------
---3----- data row 3 --------- 3 ---------

Table 2:

---ID---SomeOtherColumn---CommonColumn----
---1----- data row 1 --------- 5 ---------
---2----- data row 2 --------- 3 ---------
---3----- data row 3 --------- 8 ---------

如果我们只是在Spark中加载两个表并在MySQL内使Spark加入或加入它们然后加载结果,那么每次运行程序时我们可能会得到不同的结果不一样。另一方面,使用CDC(更改数据捕获)和Spark Streaming不能成为解决方案,因为我们没有所有行。

您有什么想法我能解决这个问题吗?

此致

0 个答案:

没有答案