如何使用pyspark从字符串中提取数字格式

时间:2018-11-26 09:54:23

标签: python dataframe pyspark

我的表中有一列具有以下值:

  |col_A|
  -------
  |00140|
  -------
  |00120|
  -------
  |00058|
  -------
  |00009|
  -------
  |00052|

我想删除左侧的所有0。 我使用pyspark构建数据框。 您可以在下面找到一个示例:

while tab.col_A.like('0%'):
        tab = tab.withColumn('tab_B', tab['col_A'][2:5])

当我尝试执行此代码时,出现此错误:

  

无法将列转换为bool

请帮助。

1 个答案:

答案 0 :(得分:2)

我尝试了以下代码:

tab = tab.withColumn("col_B", F.regexp_extract(tab['col_A'], '[1-9][0-9]*',0))

问题已解决。

谢谢