我正在尝试处理每天创建的一些相当宽的文件(超过860列)。问题是日常文件不包含标题,而是位于其他文件中。
我目前正在使用PySpark读取这些文件以创建我的数据框:
df = spark.read \
.format('csv') \
.option('delimiter','\t') \
.option('inferSchema', 'true') \
.load(path_to_data) \
.select('field_name') \
.show()
这会导致错误,因为没有标题就不存在“ field_name”!
是否可以从其他文件导入这些标头?当数据已经可用时,我想避免构建这么大的StructField。
谢谢!