假设MySQL
数据库中有两个表,我们将根据公共列对它们运行连接。关键是,两个表上的数据都在增长,因此每一秒都有一些行添加到每个表中。
Table 1:
---ID-----SomeColumn------CommonColumn----
---1----- data row 1 --------- 1 ---------
---2----- data row 2 --------- 8 ---------
---3----- data row 3 --------- 3 ---------
Table 2:
---ID---SomeOtherColumn---CommonColumn----
---1----- data row 1 --------- 5 ---------
---2----- data row 2 --------- 3 ---------
---3----- data row 3 --------- 8 ---------
如果我们只是在Spark
中加载两个表并在MySQL
内使Spark加入或加入它们然后加载结果,那么每次运行程序时我们可能会得到不同的结果不一样。另一方面,使用CDC
(更改数据捕获)和Spark Streaming
不能成为解决方案,因为我们没有所有行。
您有什么想法我能解决这个问题吗?
此致