从多个源创建单个Spark Dataframe?

时间:2016-07-18 23:41:26

标签: apache-spark dataframe pyspark apache-spark-sql spark-dataframe

可以从外部文件创建Spark中的数据框。有没有办法使用多个文件来创建单个对象?

EX: 如果我说一个csv文件或镶木地板文件记录相同的数据(比如一周中某天购买的商品的数量)。有没有办法从每天的文件中初始化单个数据框,以获得代表一周购买数据的单个数据框?

1 个答案:

答案 0 :(得分:2)

spark从文件中读取输入的方式取决于底层的Hadoop API。这通常意味着它们扩展了相同的用法,包括能够处理压缩文件或多个文件。

在您的情况下,您只需使用通配符提供文件输入或使用逗号分隔。见How to read multiple text files into a single RDD?