标签: pyspark pyspark-sql
我正在将数据从json文件加载到pyspark数据框,并且在其中一个文本列中有HTML标记 例如 text&lt text&>文本&nbsptext \ ntext
text&>文本&nbsptext \ ntext
是否可以从此列中删除HTML标签?我知道可以使用熊猫完成此操作,但我不想将所有数据框都转换为pyspark,然后再转换回它,因为这将花费很多时间。