我打算用Spark编写销售分析应用程序。因此,我每晚都会获得一个delta数据集,其中包含新的销售数据(前一天的销售情况)。后来我想实现一些分析,如关联规则或产品的普及。
销售数据包含以下信息:
到目前为止,我在我的应用程序中使用了一个简单的.textFile
方法和RDD。我听说过DataFrame和Parquet,它是一种用于文本文件的表格数据格式,对吧?那么将数据存储在数据库中一次(我在Hadoop集群中安装了HBase)然后读取这个?
有人可以简要介绍一下Spark中不同类型的保存/加载可能性吗?并建议如何使用此数据?
数据量实际上约为6 GB,表示3个商店的数据数据约1年。之后我将处理约500家商店的数据和约5年的时间段。
答案 0 :(得分:3)
您可以使用spark来处理该数据而不会出现任何问题。您也可以从csv文件中读取(这是来自支持csv的数据库的库)。您可以操作它,从您更近一步到将其转换为数据帧。您可以将最终的数据帧直接输入HBASE。 您可以在此处找到所有需要的文档: http://spark.apache.org/docs/latest/sql-programming-guide.html https://www.mapr.com/blog/spark-streaming-hbase
干杯, 亚历