Question

假设MySQL数据库中有两个表，我们将根据公共列对它们运行连接。关键是，两个表上的数据都在增长，因此每一秒都有一些行添加到每个表中。

Table 1:

---ID-----SomeColumn------CommonColumn----
---1----- data row 1 --------- 1 ---------
---2----- data row 2 --------- 8 ---------
---3----- data row 3 --------- 3 ---------

Table 2:

---ID---SomeOtherColumn---CommonColumn----
---1----- data row 1 --------- 5 ---------
---2----- data row 2 --------- 3 ---------
---3----- data row 3 --------- 8 ---------

如果我们只是在Spark中加载两个表并在MySQL内使Spark加入或加入它们然后加载结果，那么每次运行程序时我们可能会得到不同的结果不一样。另一方面，使用CDC（更改数据捕获）和Spark Streaming不能成为解决方案，因为我们没有所有行。

您有什么想法我能解决这个问题吗？

此致

使用Spark连续加入两个MySQL表

0 个答案: