如何比SQL更快地提取关系数据

时间:2016-03-05 09:50:18

标签: mysql hadoop apache-spark etl bigdata

我在SQL中有类似图形的数据。数据可以描述为:

  1. 产品表 - skus列表分为两个(2)

    Class 1: non-vehicle specific (universally fits all vehicle)
    Class 2: vehicle-specific (custom-fit to specific set of vehicle) 
              1 sku fits one or more vehicle (YMMSE)
    
  2. 车辆主表(年份,制造型号,子模型,引擎)又名YMMSE     例如        2014款福特嘉年华S 4气缸,1.6升

  3. 申请表 - 定制产品与相应车辆YMMSE之间的关系。

  4. 我有一个应用程序表,其中包含大约8500万条记录的千兆字节。

    问题是查询SKU特定车辆YMMSE在SQL中需要很长时间,尤其是在具有大量应用程序映射的skus上,几乎是通用"。

    应用程序表经常更新,因此我需要每次都能执行昂贵的查询,直到MySQL服务器几乎放弃或导致复制延迟为止。

    问题是:

    像Hadoop或Spark这样的分布式处理框架是否能够帮助我加快快速发现sku特定车辆映射的过程?

    此致 君

1 个答案:

答案 0 :(得分:0)

像Hadoop或Spark这样的框架可以帮助从数据库中消除一些压力,但不是为低延迟操作而设计的。如果数据是图形的,并且查询表示某些类型的图遍历,那么使用某些类型的图数据库之类的专用工具会更好。