应用错误收集

时间：2017-05-03 13:27:45

标签： php mysql hadoop

每个月我都会收到一个大小为2 GB的CSV文件。我在MySql数据库的表中导入这个文件，这几乎是即时的。

然后使用PHP，我查询此表，从该表中过滤数据并将相关数据写入其他几个表。这需要几天时间 - 所有查询都会进行优化。

我想将此数据移至Hadoop，但不明白应该是什么起点。我正在研究Hadoop，我知道这可以使用Sqoop完成，但仍然太困惑，从如何将这些数据迁移到Hadoop的方面开始。

答案 0 :(得分：1)

使用Apache Spark可能在Python中，因为它易于入门。尽管Spark的使用可能过度，但考虑到它的速度和可扩展性，在此方面付出额外的努力是没有害处的。

您可能希望切换到Spark直接提供要访问的API的任何其他数据库（Hive / Hbase等）。它是可选的，因为只需要很少的额外代码，只有在你不想改变的情况下才能使用MySql。

总体设计如下：

涉及的系统：