从pyspark数据框列中删除HTML标签

时间:2019-08-07 02:12:02

标签: pyspark pyspark-sql

我正在将数据从json文件加载到pyspark数据框,并且在其中一个文本列中有HTML标记 例如 text&lt

text&>文本&nbsptext \ ntext

是否可以从此列中删除HTML标签?我知道可以使用熊猫完成此操作,但我不想将所有数据框都转换为pyspark,然后再转换回它,因为这将花费很多时间。

0 个答案:

没有答案
相关问题