我在Excel工作表中有学生的详细信息,并且在驱动器中有他们各自的文件。我应该如何使用Hadoop合并数据,以便分析和得出结果?
答案 0 :(得分:0)
Excel不是数据库,因此只有在您的文件位于HDFS上(理想情况下是诸如Parquet之类的单独格式)或将其转换为正确的数据库之前,才能直接从Hadoop框架中查询它。
选项1)将Excel导出为CSV,然后上传到Hadoop并从那里开始
选项2)使用Apache POI(Java)或Pandas(Python)Excel库并与Hive集成,假设这就是您在此处所说的“ Hadoop”。
选项3)Use Spark-Excel
注意,除非您有超过100GB(较大的随机数)的学生数据,否则最好使用MySQL或Postgres