标签: apache-spark hive spark-streaming
我有两个表A和B。
我需要每小时通过Spark Streaming将数据从表A提取到表B。
表A每小时更新一次。
接收的方式应为:如果具有相同ID的记录进入表B,则先前的记录将被删除并插入新的记录,从而不会重复数据。
如果有新记录,则需要将其直接提取到表B中。