我仍在学习Hadoop并遇到过特定情况: 我有两个表,首先是mySQL中的表A,列是:电子邮件和地址,而HDFS中的第二个表B是列:id,email和address。我必须在两个表中查找电子邮件,并使用表A中的新行更新表B(表B中不存在的电子邮件是表A中的新记录条目,因此必须在表B中移动) 。
我可以使用Pig或使用Hive脚本解决此问题吗?有人可以帮帮我吗?
答案 0 :(得分:1)
目前将MySql表加载到HDFS需要使用Sqoop或自定义加载UDF。看看这个SO Link
在HDFS中获得数据之后,需要进行左(或右)连接并获取行的差异并根据需要创建新关系并存储在HDFS中。