应用错误收集

时间：2016-07-06 13:50:46

标签： hadoop apache-spark dataframe hbase hadoop2

我打算用Spark编写销售分析应用程序。因此，我每晚都会获得一个delta数据集，其中包含新的销售数据（前一天的销售情况）。后来我想实现一些分析，如关联规则或产品的普及。

销售数据包含以下信息：

到目前为止，我在我的应用程序中使用了一个简单的.textFile方法和RDD。我听说过DataFrame和Parquet，它是一种用于文本文件的表格数据格式，对吧？那么将数据存储在数据库中一次（我在Hadoop集群中安装了HBase）然后读取这个？

有人可以简要介绍一下Spark中不同类型的保存/加载可能性吗？并建议如何使用此数据？

数据量实际上约为6 GB，表示3个商店的数据数据约1年。之后我将处理约500家商店的数据和约5年的时间段。

答案 0 :(得分：3)

您可以使用spark来处理该数据而不会出现任何问题。您也可以从csv文件中读取（这是来自支持csv的数据库的库）。您可以操作它，从您更近一步到将其转换为数据帧。您可以将最终的数据帧直接输入HBASE。您可以在此处找到所有需要的文档： http://spark.apache.org/docs/latest/sql-programming-guide.html https://www.mapr.com/blog/spark-streaming-hbase

干杯，亚历