我是pyspark的新手,我正在尝试对数据进行一些标记化。 我有我的第一个数据框: reviewID |文本|星标
我根据pyspark文档对“文本”进行了标记化:
tokenizer = Tokenizer(inputCol="text", outputCol="words")
countTokens = udf(lambda words: len(words), IntegerType())
tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
.withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)
我拿到了令牌,但现在我想转换看起来像这样的数据框:
单词|星星
“单词”是我的记号。
因此,我需要将我的第一个数据框和标记化的数据框连接起来,以获得类似的内容。 请你帮助我好吗?如何将列添加到另一个数据框?
答案 0 :(得分:0)
好,我现在知道了。我只需要做:
tokenizer = Tokenizer(inputCol="text", outputCol="words")
tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)
有效!