PySpark:根据组中的值创建向量

时间:2019-08-02 03:15:12

标签: vector pyspark word2vec

我目前具有以下格式的用户交易历史数据集:

+---------+------------+------------+
| user_id | order_date | product_id |
+---------+------------+------------+
|       1 |   20190101 |        123 |
|       1 |   20190102 |        331 |
|       1 |   20190301 |       1029 |
+---------+------------+------------+

我正在尝试转换要用于Item2Vec模型的数据集-我认为它必须看起来像这样:

+---------+-------------------+
| user_id |      seq_vec      |
+---------+-------------------+
|    1    |  [123, 331, 1029] |
-------------------------------

我假设通过查看Word2Vec(https://spark.apache.org/docs/2.2.0/ml-features.html#word2vec)的示例,必须以这种方式格式化数据集。

如果我按product_id分组,是否有内置的PySpark方法根据user_id列中的值创建矢量?

1 个答案:

答案 0 :(得分:1)

dispatchLocation可以解决问题

collect_list