如何使用Spark加载JSON(在csv中保存的路径)?

时间:2016-06-20 16:46:42

标签: apache-spark pyspark apache-spark-sql spark-streaming spark-dataframe

我是Spark的新手。 我可以在Spark中加载.json文件。如果文件夹中有数千个.json文件,该怎么办? picture of .json files in the folder

我有一个csv文件,它使用标签对.json文件进行分类。picture of csv file

如果我想加载和保存数据,我该如何处理Spark。(例如。我想在csv中加载第一个信息,但它是文本信息。但它给出了.json的路径,而我想要加载.json,然后保存输出。所以我将知道第一个Trusted标签图的json信息。)

1 个答案:

答案 0 :(得分:1)

对于JSON:

jsonRDD = sql_context.read.json("path/to/json_folder/");

对于 CSV ,请从此处Databricks' spark-csv

安装spark-csv
csvRDD = sql_context.read.load("path/to/csv_folder/",format='com.databricks.spark.csv',header='true',inferSchema='true')