每个月我都会收到一个大小为2 GB的CSV文件。我在MySql数据库的表中导入这个文件,这几乎是即时的。
然后使用PHP,我查询此表,从该表中过滤数据并将相关数据写入其他几个表。这需要几天时间 - 所有查询都会进行优化。
我想将此数据移至Hadoop,但不明白应该是什么起点。我正在研究Hadoop,我知道这可以使用Sqoop完成,但仍然太困惑,从如何将这些数据迁移到Hadoop的方面开始。
答案 0 :(得分:1)
使用Apache Spark可能在Python中,因为它易于入门。尽管Spark的使用可能过度,但考虑到它的速度和可扩展性,在此方面付出额外的努力是没有害处的。
您可能希望切换到Spark直接提供要访问的API的任何其他数据库(Hive / Hbase等)。它是可选的,因为只需要很少的额外代码,只有在你不想改变的情况下才能使用MySql。
总体设计如下:
涉及的系统: