我是Spark的新手。 我可以在Spark中加载.json文件。如果文件夹中有数千个.json文件,该怎么办? picture of .json files in the folder
我有一个csv文件,它使用标签对.json文件进行分类。picture of csv file
如果我想加载和保存数据,我该如何处理Spark。(例如。我想在csv中加载第一个信息,但它是文本信息。但它给出了.json的路径,而我想要加载.json,然后保存输出。所以我将知道第一个Trusted标签图的json信息。)
答案 0 :(得分:1)
对于JSON:
jsonRDD = sql_context.read.json("path/to/json_folder/");
对于 CSV ,请从此处Databricks' spark-csv
安装spark-csv
csvRDD = sql_context.read.load("path/to/csv_folder/",format='com.databricks.spark.csv',header='true',inferSchema='true')