df = spark.createDataFrame([("Lily lives in New-York",),
("John lives in Budapest",),
("Mary lives in Lisbon",)],
["text",])
europe_capitals = ("Budapest", "Lisbon")
如何有效地检查df.text
列中的文本包含europe_capitals
中的一个(或多个)单词?
例如,我该怎么做:
from pyspark.sql import functions as F
df.where(F.col("text").containsOneFrom(europe_capitals))
或
df = df.withColumn("contains_eu_capital", contains_capital(F.col("text"))
例如使用UDF,但是效率很高?