应用错误收集

我正在尝试处理每天创建的一些相当宽的文件（超过860列）。问题是日常文件不包含标题，而是位于其他文件中。

我目前正在使用PySpark读取这些文件以创建我的数据框：

df = spark.read \
          .format('csv') \
          .option('delimiter','\t') \
          .option('inferSchema', 'true') \
          .load(path_to_data) \
          .select('field_name') \
          .show()

这会导致错误，因为没有标题就不存在“ field_name”！

是否可以从其他文件导入这些标头？当数据已经可用时，我想避免构建这么大的StructField。

谢谢！

要从其他文件导入CSV标头吗？

0 个答案: