Question

我是pyspark的新手，我正在尝试对数据进行一些标记化。我有我的第一个数据框： reviewID |文本|星标

我根据pyspark文档对“文本”进行了标记化：

tokenizer = Tokenizer(inputCol="text", outputCol="words")

countTokens = udf(lambda words: len(words), IntegerType())

tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)

我拿到了令牌，但现在我想转换看起来像这样的数据框：

单词|星星

“单词”是我的记号。

因此，我需要将我的第一个数据框和标记化的数据框连接起来，以获得类似的内容。请你帮助我好吗？如何将列添加到另一个数据框？

Answer 1

好，我现在知道了。我只需要做：

tokenizer = Tokenizer(inputCol="text", outputCol="words")


tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)

有效！

如何在pyspark中将列从另一个数据框添加到一个数据框？

1 个答案: