Apache Spark:选择哪种数据存储和数据格式

时间:2016-07-06 13:50:46

标签: hadoop apache-spark dataframe hbase hadoop2

我打算用Spark编写销售分析应用程序。因此,我每晚都会获得一个delta数据集,其中包含新的销售数据(前一天的销售情况)。后来我想实现一些分析,如关联规则或产品的普及。

销售数据包含以下信息:

  • 商店中的ID
  • 物品组
  • 现金点的时间戳
  • 文章GTIN
  • 金额

到目前为止,我在我的应用程序中使用了一个简单的.textFile方法和RDD。我听说过DataFrame和Parquet,它是一种用于文本文件的表格数据格式,对吧?那么将数据存储在数据库中一次(我在Hadoop集群中安装了HBase)然后读取这个?

有人可以简要介绍一下Spark中不同类型的保存/加载可能性吗?并建议如何使用此数据?

数据量实际上约为6 GB,表示3个商店的数据数据约1年。之后我将处理约500家商店的数据和约5年的时间段。

1 个答案:

答案 0 :(得分:3)

您可以使用spark来处理该数据而不会出现任何问题。您也可以从csv文件中读取(这是来自支持csv的数据库的库)。您可以操作它,从您更近一步到将其转换为数据帧。您可以将最终的数据帧直接输入HBASE。 您可以在此处找到所有需要的文档: http://spark.apache.org/docs/latest/sql-programming-guide.html https://www.mapr.com/blog/spark-streaming-hbase

干杯, 亚历