如何将固定长度的.csv文件加载到Hive仓库中

时间:2019-05-23 17:29:58

标签: python mysql apache-spark hive pyspark

我想使用pyspark将固定长度的.csv文件加载到配置单元表中。

固定长度的.csv文件的格式为:

Start position | End position | column name | Data type | Col value
1              | 5            | Emp Name    | String    | Rahul
6              | 8            | Emp id      | int       | 1234
9              | 15           | Salary      | bigint    | 500000

此文件由大约100个巨大的列组成,在这种情况下,spark的substr方法(如下所示)的编码可能会很困难。还有其他办法吗?

df.value.substr(1,5).alias('Emp名称')

请告诉我是否可能?如果可以,怎么办? 非常感谢有人给我一些想法。

谢谢。

0 个答案:

没有答案