如何合并Excel工作表中的数据和hadoop中Google驱动器中的文件?

时间:2019-01-04 06:14:24

标签: excel hadoop

我在Excel工作表中有学生的详细信息,并且在驱动器中有他们各自的文件。我应该如何使用Hadoop合并数据,以便分析和得出结果?

1 个答案:

答案 0 :(得分:0)

Excel不是数据库,因此只有在您的文件位于HDFS上(理想情况下是诸如Parquet之类的单独格式)或将其转换为正确的数据库之前,才能直接从Hadoop框架中查询它。

选项1)将Excel导出为CSV,然后上传到Hadoop并从那里开始

选项2)使用Apache POI(Java)或Pandas(Python)Excel库并与Hive集成,假设这就是您在此处所说的“ Hadoop”。

选项3)Use Spark-Excel


注意,除非您有超过100GB(较大的随机数)的学生数据,否则最好使用MySQL或Postgres