标签: hadoop hdfs sqoop
将HDFS上的平面文件与可能有行更新的大型数据库表保持同步的最佳方法是什么?
像sqoop这样的工具看起来很有用,因为它们允许从表中新增行的新行,但是我看不到处理行更新的简单方法。
我们可以使用哪些技术以高效的方式处理行更新?每晚倾倒整张桌子是我们宁愿避免的。
答案 0 :(得分:1)
我更喜欢在mysql表中使用updated_at字段,以便每晚只获取更改的数据。之后我做了一个简单的map reduce来应用更改(合并)旧状态。
答案 1 :(得分:1)
以下是一些建议: