Question

我是Spark的新手。我可以在Spark中加载.json文件。如果文件夹中有数千个.json文件，该怎么办？ picture of .json files in the folder

我有一个csv文件，它使用标签对.json文件进行分类。picture of csv file

如果我想加载和保存数据，我该如何处理Spark。（例如。我想在csv中加载第一个信息，但它是文本信息。但它给出了.json的路径，而我想要加载.json，然后保存输出。所以我将知道第一个Trusted标签图的json信息。）

Answer 1

对于JSON：

jsonRDD = sql_context.read.json("path/to/json_folder/");

对于 CSV ，请从此处Databricks' spark-csv

安装spark-csv

csvRDD = sql_context.read.load("path/to/csv_folder/",format='com.databricks.spark.csv',header='true',inferSchema='true')