我想使用pyspark将固定长度的.csv文件加载到配置单元表中。
固定长度的.csv文件的格式为:
Start position | End position | column name | Data type | Col value
1 | 5 | Emp Name | String | Rahul
6 | 8 | Emp id | int | 1234
9 | 15 | Salary | bigint | 500000
此文件由大约100个巨大的列组成,在这种情况下,spark的substr方法(如下所示)的编码可能会很困难。还有其他办法吗?
df.value.substr(1,5).alias('Emp名称')
请告诉我是否可能?如果可以,怎么办? 非常感谢有人给我一些想法。
谢谢。